标签: AI

  • 全球顶尖科学家签署《IDAIS伦敦宣言》,AI安全威胁已近在眼前

    AI 安全,这次是顶尖科学家自己站出来了

    四月十七日到十九日,四个图灵奖得主凑在一起,在英国皇家学会开了三天会。这件事本身就不太寻常——Yoshua Bengio、姚期智、Stuart Russell、张亚勤,这四个名字任何一个单拎出来都够开一场主旨演讲,现在他们坐同一张桌子旁边,讨论的是同一件事:人工智能驱动的攻击行为,社会有没有准备好。

    这场活动是”人工智能安全国际对话”(IDAIS)的第五场。这个机制是 2023 年成立的,之前走过了牛津、北京、威尼斯、上海,这一站放在伦敦,本身就有信号意义——英国在 AI 安全治理上一直想当”中间人”角色,既不完全跟美国走,也不站中国这边。

    按照当前的技术演进速度,资源极为有限的非国家行为体——从有组织团体到独狼式个人——有望在一年内掌握部分国家级网络攻击手段。

    声明里写了什么,为什么现在发

    这份在伦敦签署的共识声明,核心警告可以浓缩成两句话:AI 正在让”搞破坏”的门槛降得比以前低太多,而全球社会还没准备好应对这个变化。

    声明具体点了两大风险领域。第一个是 AI 赋能的网络攻击。前沿 AI 系统现在已经能在数小时内完成专家团队需要耗费数周才能完成的编程工作,包括发现并利用主流操作系统和浏览器的漏洞。曾经只有资源充足的国家行为体才能搞定的复杂攻击,现在正在以远超以往的速度落入远为广泛的人群手中。

    第二个风险领域是生物滥用。前沿 AI 系统在与病原体设计相关的任务上已经超越博士级专家,使得较低层级的生物能力逐步进入非专业人士的可及范围。声明特别提到:能规划并协调多步骤实验室任务、还能协助构建新型专用生物 AI 模型的智能体,会进一步放大这个风险。

    两大风险领域,声明给出了哪些应对方向

    针对网络攻击风险,声明提出了几个优先事项:保护关键基础设施、建设对前沿 AI 系统网络攻击能力的评测能力、要求开展部署前测试并在必要时延迟更广泛的开放、对具备高级网络能力的前沿 AI 系统实施访问控制、建立信息共享与漏洞披露机制。

    针对生物滥用风险,声明同样给出了优先事项:强化 AI 防护措施以应对高危生物滥用、对前沿闭源模型采取拒答训练和可信访问控制、对前沿开放权重模型开展预训练数据过滤、建设对前沿 AI 系统生物能力提升的评测能力、在核酸合成筛查方面开展国际协调。

    这些措施听起来都很”应该”,但声明本身也坦承:目前的防护手段”远远不够”,基础性的技术与社会防御体系”仍处于萌芽阶段”,且在各司法管辖区之间部署极不均衡。

    中国和美国,都被点名了

    声明有一段话值得单独拎出来说:”主要人工智能司法管辖在协调方面负有特殊责任。这尤其包括美国和中国,以及其他在人工智能开发、部署和评估方面具有重要能力的司法管辖区。”

    这是一份国际科学声明直接点名中美两国在 AI 安全治理上的特殊责任。过去类似声明往往泛泛而谈”国际社会应当……”,这次写得相当具体。

    Yoshua Bengio 一直是 AI 安全领域最敢说的顶尖科学家之一。他牵头起草的《国际 AI 安全报告》在 2025 年发布,当时就有不少政府官员觉得”写得过于直白了”。这次 IDAIS 伦敦宣言的措辞同样相当直接,没有太多外交辞令。

    声明最后还有一段类比,值得所有 AI 从业者认真读一读:”一场严重的人工智能赋能灾难不仅会造成巨大的直接危害,更会摧毁公众对人工智能系统的信任,并使人工智能本可带来的重大社会效益付诸东流。切尔诺贝利事故重创了全球核工业,至今仍让民用核能蒙上阴影,尽管现代反应堆设计已安全得多。”

    把 AI 安全风险和切尔诺贝利相提并论——这份声明的分量,可能比很多人第一眼看到的要重得多。


  • OpenAI现场演示无APP手机:所有界面实时生成,推理甩给云端GPT

    把App图标全删了,手机只装一个GPT

    OpenAI 在 Voice Hack Night 活动上搞了个相当激进的演示。一支团队现场展示了一款为手机打造的”智能体操作系统”原型,整场演示看下来,最让人坐不住的点在于:这部手机上没有一个传统 App。

    所有操作界面都是”即时生成”的。你需要订机票,界面就现场画出一个订票界面;你要查日程,它就给你生成一个日程管理视图。不是从手机存储里调出一个安装好的应用,而是需要什么界面,系统就即时画出来什么界面。

    “UI 即系统”——这套原型的核心设计理念,说白了就是把”打开某个 App 才能完成某件事”这个逻辑整个推翻掉。

    技术实现上,这套原型把任务分成了两层。手机本地跑一个小模型,负责实时生成界面——你说出需求,它立刻把对应的操作界面渲染出来。需要重推理的任务(比如理解复杂语义、联网搜索、生成长回复)则交给云端 GPT 处理。

    现场演示里,开发者全程用语音下指令,完成了好几个任务:订机票、删日历日程、查 AI 新闻、发邮件、列待办清单。整个过程没有点开任何一个 App 图标。

    Sam Altman 的”手机梦”动了真格

    这件事的背景是,OpenAI 一直在悄悄推进它的硬件战略。早有消息说它在做手机项目,最近团队已经扩张到了 200 人,核心成员几乎清一色来自苹果。苹果的设计和工程人才被挖走不少,这本身就很说明问题——OpenAI 要做的不只是一款手机,而是重新定义”什么是手机操作系统”。

    Sam Altman 之前好几次暗示过这个方向。他说过”现在是认真重新思考操作系统和用户界面设计的合适时机”,当时很多人以为他只是在说软件层面的改进。现在看来,他脑子里想的是从硬件到操作系统到交互逻辑的全栈重构。

    时间点方面,最新的消息是 OpenAI 把量产目标定在了 2027 年上半年,比外界之前预期的要早。如果这件事真的发生,它可能会改变过去十五年基本没变过的智能手机交互范式。

    当然,现在还只是原型

    现场的演示是在受控环境下做的,真实场景的复杂度远不止此。语音识别在嘈杂环境下的表现、即时生成界面的响应速度、云端推理的延迟和成本——这些都是要解决的问题。

    但方向本身已经很清楚了:OpenAI 不只想做手机上的一个新 App(比如 ChatGPT),它想做的是让”打开 App”这件事本身变得多余。你在手机上要做任何事,直接说、或者直接想,界面随之生成,任务由 AI 智能体完成。

    这对现有的手机操作系统格局(iOS 和 Android 的双寡头)意味着什么,现在下结论还为时过早。但 OpenAI 把200 个硬件人才的团队攒起来这件事本身,已经值得整个行业认真想一想了。


  • OpenAI在2026年5月这波更新,藏着他们真正的野心

    OpenAI在2026年5月这波更新,藏着他们真正的野心

    2026年4月23日到5月28日这段时间,OpenAI密集发布了一堆更新。表面上看,就是发布了新模型、修了几个bug、加了两个功能。但如果你仔细看这波操作的逻辑,会发现他们真正想做的,是把AI从”聊天工具”变成”能连续工作几小时的数字化员工”。

    GPT-5.5来了,但重点不是”更聪明”

    4月23日,GPT-5.5在API、ChatGPT Plus/Pro、Codex、Copilot中上线。数字看着挺漂亮:支持100万token上下文,SWE-bench Verified得分88.7%,MMLU 92.4%,定价5/30美元每百万token。

    但真正有意思的是5月5日上线的GPT-5.5 Instant,它取代了GPT-5.3 Instant成为所有ChatGPT用户的默认模型。OpenAI内部测试显示,在高风险提示下,它的幻觉率比上一代降低了52.5%。用户标记过事实错误的真实对话中,不准确陈述减少了37.3%。

    GPT-5.5 Instant的输出也更简洁了,相同提示下输出字数减少30.2%。以前那种”好的!我很乐意帮助您…”的废话开头,现在少多了。

    不过有个细节值得注意:52.5%的幻觉降低,是在开启工具使用的高风险提示下测得的数据。如果不开启工具,纯靠模型自己生成长文本,GPT-5.5的幻觉率仍有86%,远高于Claude Opus 4.7的36%。所以,它的事实性优势主要来自工具引导和上下文工程,而不是基础模型本身有多牛。

    Codex CLI偷偷升级成了”持久自主运行时”

    5月7日到26日,Codex CLI连发4个版本。表面上是加了Vim编辑支持、修了几个bug、改进了UI。但5月21日v0.133.0的更新,才是这波操作的核心:目标模式(Goals Mode)默认开启

    这个”目标模式”是干嘛的?简单说,就是你定义一个结果和成功标准,然后Codex可以自己跑几个小时甚至几天,而且进度是跨轮次、跨会话、跨机器持久化的。目前这个功能在CLI、IDE扩展、ChatGPT应用里都已经正式可用。

    这意味着什么?以前你让AI帮你写代码,它写完就完事儿,你得自己测试、自己修bug、自己接着往下做。现在你可以直接甩给它一个目标,比如”把这个项目的所有单元测试覆盖率提升到80%”,然后你就可以去干别的了,它自己会想办法、自己测试、自己迭代,直到达成目标或者卡住。

    Codex目标模式示意图
    Codex目标模式让AI可以自主工作数小时

    其他几个更新也挺实用:v0.131.0支持通用的”@”选择器,可以一次性搜索文件、目录、插件、技能;v0.134.0支持对话历史搜索,还支持按服务器配置MCP环境变量。这些看起来是小事儿,但堆在一起,就是在把Codex从”交互式编码助手”升级成”持久自主运行时”。

    ChatGPT for Excel和Google Sheets,这步棋下得挺大

    5月5日,ChatGPT for Excel和Google Sheets正式发布。这个功能是在Excel和Google Sheets里加个侧边栏,让ChatGPT直接读写你的电子表格。

    有两个概念值得注意:技能(Skills)是可复用的操作手册,教ChatGPT如何处理你这个组织的电子表格工作流、格式和审核步骤;应用(Apps)允许侧边栏连接外部数据源(比如金融数据、内部数据库),让推理基于正确的上下文,而不只是靠公式推理。

    这个动作的信号很清晰:OpenAI不想让ChatGPT只是个”聊天框”,他们想让它嵌入到你的工作流里。Excel和Google Sheets是全世界上亿人的日常工具,把AI直接塞进去,比让你打开个网页聊天的使用频率高多了。

    商业和企业版用户可以免费试用到2026年6月2日,之后就要按套餐积分配额计费了。这个时间节点卡得挺准,给你一个月时间尝鲜,然后就开始收费。

    记忆源(Memory Sources):个性化推荐背后的隐私陷阱

    5月18-20日,记忆源功能向Plus和Pro用户的网页端开放。这个功能的核心是:当ChatGPT给你个性化回答时,你可以查看它引用了哪些来源——过往对话、保存的记忆、自定义指令、文件库中的文件、已连接的Gmail账户邮件。

    每个来源都可以修正、删除或标记为”不相关”。共享对话不包含来源列表,所以共享边界处的隐私是受到保护的。

    紧接着,Google日历集成也来了:连接日历后,ChatGPT可以起草会议议程、推送生日提醒、为即将到来的旅行推荐餐厅。

    这里有一个明显的隐私权衡:你连接了Gmail或日历之后,其中的内容可能会在回答中露出来。如果你忘了已经连接了Gmail,然后问它”我们的Q2战略”,它可能会引用一封你早就忘了的邮件线程。建议定期去审计一下记忆源面板。


    GPT-5.6的影子:到底发没发布?

    5月中旬,有用户发现Codex日志中短暂出现过gpt-5.6的部署映射条目,但很快就消失了,回滚成了gpt-5.5。这个现象符合后端金丝雀测试的特征:把少量生产流量路由到实验版本,测量性能和行为。

    所以,GPT-5.6大概率是在开发中。Polymarket的交易者认为,2026年6月30日之前公开发布的概率是80-89%。但这是博彩市场的信号,不是厂商的承诺。

    OpenAI目前没有发布GPT-5.6的模型卡、API端点、基准测试或者发布日期。所以如果你在规划Q3的路线图,建议先基于GPT-5.5开发,保持模型ID可配置,方便后续一行代码迁移。任何假设GPT-5.6六月发布的路线图,目前都只是押注,不是承诺。

    跟Claude Opus 4.7、Gemini 3.1 Pro比,GPT-5.5赢在哪?

    2026年5月,这三款旗舰模型在Artificial Analysis智能指数上只相差约3分。差异化不再来自原始能力,而是各自的优势领域。

    • GPT-5.5:在代理执行领域领先,Terminal-Bench得分82.7%(Opus 4.7是69.4%),OSWorld 78.7%。它有全新的Codex目标模式运行时和最深入的第一方工具集成。
    • Claude Opus 4.7:SWE-bench Pro得分64.3%(GPT-5.5是58.6%),长文本事实性幻觉率36%(同基准下GPT-5.5是86%)。写作质量更优,更适合风险敏感的企业场景。
    • Gemini 3.1 Pro:纯推理能力领先,GPQA Diamond 94.3%,ARC-AGI-2 77.1%,而且价格更低(输出约12美元每百万token,不到GPT-5.5或Opus 4.7的一半)。

    选型建议挺直白:自主代理和Office嵌入工作流选GPT-5.5,代码审查和高信任长文本选Opus 4.7,成本敏感的大规模场景或多模态视频选Gemini 3.x。

    开发者这个月实际踩了哪些坑

    文档是一回事,生产环境是另一回事。这个月开发者实际踩过的坑包括:

    • Codex 40万 vs API 100万上下文不匹配:给Codex喂接近API 100万限制的提示会报错”超出模型上下文窗口”。Codex内上限需控制在40万token。
    • 推理token计费:思考token按输出费率计费,不是单独的等级,而且计入上下文预算。需要谨慎设置reasoning_effort
    • 长文本幻觉:GPT-5.5长文本事实性幻觉率86%,跟Opus 4.7的36%差距明显。无检索接地的情况下多段落事实生成,是这个模型的最大弱点。
    • Codex 0.134配置文件迁移:旧配置文件会被拒绝,需要显式传入--profile或更新配置文件到新schema。
    • 记忆源隐私:如果连接了Gmail或日历但忘了,相关邮件内容会在上下文相关的回答中露出来。共享前务必审计记忆源面板。

    写在最后

    OpenAI这波5月更新的核心逻辑,其实不是在比谁的模型更聪明,而是在布局”AI能不能真正替人干活”。GPT-5.5 Instant降低幻觉、Codex目标模式支持长时间自主运行、ChatGPT嵌入Excel和Google Sheets——这些都是在把AI从”聊天工具”推向”数字化员工”。

    竞争对手也没闲着。Anthropic的Claude Opus 4.7在事实性和代码审查上仍有优势,Google的Gemini 3.5 Flash在成本和多模态上发力。这场AI战争,已经从”谁的模型分数高”转向”谁能真正嵌入到用户的工作流里”。

    对于开发者来说,现在最务实的策略是:先基于GPT-5.5构建,但保持模型ID可配置。GPT-5.6大概率会在Q3发布,到那时候,一行代码就能切换过去。但在那之前,先把能用的功能用起来,比等着”下一代模型”更实际。

  • AI智能体这事儿,终于从”能聊”变成”能干活”了

    AI智能体这事儿,终于从”能聊”变成”能干活”了

    2026年有个明显的变化,AI不再只是坐在那里跟你聊天、回答问题,而是开始真正动手干活。这个转折点是个叫OpenClaw(龙虾)的开源AI代理框架,它的出现让整个行业都坐不住了,百度、阿里巴巴、腾讯、字节、智谱、月之暗面这些巨头公司一下子全都冲了进来。

    就在这个节骨眼上,5月份国家网信办、国家发展改革委、工业和信息化部三家联合印发了《智能体规范应用与创新发展实施意见》,给这个新兴领域立了规矩。

    智能体到底是个啥?

    按官方说法,智能体是”具备自主感知、记忆、决策、交互与执行能力的智能系统”。说人话就是:以前的大模型像个只会纸上谈兵的军师,你问它啥它都能跟你掰扯半天,但真要它动手干活,它就傻眼了。

    现在的智能体不一样,它能看屏幕、点鼠标、自动执行任务。百度创始人李彦宏说得挺直白:”智能体出圈了,第一次,AI的主角不是模型,而是应用。过去几年竞争核心是模型能力,现在用户真正买单的是’你能不能帮我把事做完’。”

    衡量一个AI平台有没有戏,李彦宏提出要看DAA(日活智能体数),而不是DAU(日活用户数)。意思是,有多少Agent在给人类干活并交付结果,这才是真实的价值。

    技术底座:从”大脑”到”执行”

    要让智能体真正能干活,光有个”聪明的大脑”不够,还得有完整的感知、规划、执行、验证链路。月之暗面(Moonshot AI)的Kimi就是个典型例子,他们自研了大语言模型,总参数量达到1万亿,每次推理时激活约320亿参数,配备了384个细粒度领域专家。

    这个模型用了MLA多头潜在注意力机制,把显存占用降到了传统架构的1/8,还引入了多Token预测目标来提升生成效率。这些技术细节听着枯燥,但实际效果就是:智能体能处理更长、更复杂的任务,而且不容易”掉链子”。

    科研场景:从翻遍文献到一键出报告

    《实施意见》里列出了19个智能体典型应用场景,科学研究排在第一位。2025年7月,上海交通大学和深势科技推出了通用科研智能体”SciMaster”,这个东西能干嘛呢?

    你扔给它一个科学问题,比如”分子动力学在药物筛选中的典型流程是怎样的?”,它能把问题拆成多个子任务,全网搜文献、整合资讯、数据、论文、专利,最后给你生成一份能落地的深度调研报告。

    AI智能体科研应用
    AI智能体正在深度赋能科研场景

    在药物研发领域,智能体能把跨靶点的研究证据整合进知识图谱;在新材料领域,像电解液、固体电解质有机合成这些方向,也有智能体研发辅助产品。据湘汉智库的研究报告,智能体已经深度渗透材料化学、基因组生物信息、生物医学健康等核心科研领域。

    电商场景:”一句话点外卖”成真

    今年初,淘宝闪购跟千问智能体打通了。5月11日,千问与淘宝全面打通,这标志着全球超大规模电商平台与智能体应用的深度融合。

    现在你可以直接跟智能体说”帮我点杯咖啡,不加冰”、”两份米线,其中一份加辣不要豆芽”,它能自动识别你的意图、位置和偏好,然后推荐可下单的商品。这个合作已经覆盖了全国300多个地级市和超过3000个区县,品类涵盖餐饮外卖、超市便利、生鲜蔬果、鲜花绿植、医药健康、手机数码等等。

    有个挺有意思的细节:AI在帮忙选品时,还可能做出”劝退”动作。比如你试图让智能体买个”量子水杯”,它可能会直接给你科普一波,告诉你这玩意儿不靠谱。这种”反销售”功能,倒是挺接地气的。

    金融和教育:秒读财报、梳理文献

    以前券商研究员做行业研究,得泡在海量研报、财报、新闻里,翻遍资料,2-3天才能攒出一份初稿。现在把研究主题丢给Kimi,它立刻自动全网检索、逐页精读财报、提炼核心观点,一气呵成输出结构化分析草稿。原先2-3天的”苦活儿”,现在2-3小时就搞定。

    教育领域也是一样,文献”大山”一直是高校师生的头号痛点。现在只需一次对话,智能体就能一口气读完所有文献,自动完成分类归档、提炼核心观点,梳理出包含研究脉络、争议焦点、未来方向的完整综述框架。博士生过去要熬2-3周才能啃完的文献梳理,现在1-2天就能拿出初版,而且内容更全面、更系统。


    安全问题:智能体也需要”纠偏”

    智能体当然不是完美无缺的,”满嘴跑火车”的幻觉问题、决策跑偏、执行掉链子,都是行业面对的难题。为了给智能体”纠偏”,研发端从技术上打响了”精准纠错战”。

    深势科技的CTO廖若雪说得很实在:科学场景对于事实的准确性和推理的可溯源性要求极高。首先,智能体的知识需要是结构化的,而不是完全依赖模型去记忆知识;其次,智能体的推理过程也要通过特定算法进行置信度校验;此外还需强调验证,关键的科学论断不能只由智能体自行评估,得通过实际运行结果来验证结论是否真实。

    360 AI安全研究院最近发布了《AI安全系列报告》,指出随着智能体加速进入企业办公、研发、运维、客服等核心业务场景,AI安全的核心问题正在从”生成风险”转向”执行风险”。他们提出了两条解决路径:一是用AI加持传统安全防护,提高漏洞发现、入侵研判、样本分析和响应处置效率;二是让不确定性任务在安全约束下执行,让智能体可以做事,但不能越界。

    清华大学文科资深教授、苏世民书院院长薛澜认为,《实施意见》通过设定全链条安全要求,系统性预防智能体技术滥用、决策失控等风险,为智能体技术在全社会规模化应用建立必要的安全信任基础。

    写在最后

    智能体的崛起,既是技术迭代的必然,更是时代发展的趋势。这不是简单的技术升级,而是工作方式、商业逻辑、生活体验的全面重构。政策护航、技术成熟、场景落地,多重力量正推动智能体从行业探索走向深度赋能。

    根据《AI智能体赋能行业决策:趋势与实践白皮书(2026)》,智能体在制造、金融、政务等行业的渗透率已经超过50%。这个数字背后,是无数工作场景正在发生的真实变革。

  • 格莱美CEO亲解:AI写的歌到底能不能拿奖?

    格莱美奖的主办方、录音学院CEO哈维·梅森(Harvey Mason Jr.)最近再次坐到了《The Verge》主编尼尔·帕特尔(Nilay Patel)的播客节目里。距离他们上一次对话已经过去18个月,而这18个月里,生成式AI对音乐产业的渗透速度快到让人反应不过来。

    「AI目前只能基于已有的人类创作做迭代,还无法创造出全新的音乐风格、流派,推动艺术形式向前的核心依然是人类的生活体验和情感表达。」——哈维·梅森,录音学院CEO

    上次聊天的时候,哈维还说”AI不可能写出《Songs in the Key of Life》那种级别的作品”。这次他坦率承认:AI生成的内容质量已经大幅提升,现在很难直接分辨出哪些是人写的、哪些是AI生成的。

    录音室里已经到处都是AI了

    作为资深音乐制作人,哈维说现在流行和R&B的录音session里,AI几乎已经”无处不在”——生成和弦进程、补充鼓点循环、辅助写歌词、制作背景和声、生成小样……甚至电影配乐领域已经有人用AI把单乐器的旋律扩展成完整管弦乐编曲,编曲成本大幅降低。

    一个耐人寻味的矛盾是:民调显示52%的听众不愿意听使用AI辅助创作的音乐,66%的听众表示从未主动听过AI生成的音乐,而且年轻群体对AI的反感程度更高。但行业里几乎所有人都在用AI工具,只是没有人愿意公开承认。

    Suno CEO曾经打了个比方:AI就像音乐行业的司美格鲁肽——所有人都在用,但没人愿意公开说。


    格莱美的评选规则:人类创造力必须占大头

    格莱美奖的核心原则是”奖励人类创造力”,目前规则为:只要作品中人类创造力占比超过”最小必要量(de minimis)”,就可以参与评选,不会完全禁止AI辅助创作的作品。

    具体判定逻辑为:如果AI仅用于辅助(比如生成背景和声、辅助写歌词),人类创作者依然可以凭借词曲创作、演唱等人类贡献的部分参评对应奖项;但如果作品完全由AI生成,或者AI承担了核心创作、表演工作,那就拿不到格莱美的入场券。

    问题是,目前还没有成熟的技术可以精准检测作品里AI的参与比例,评选只能靠申报人自主披露和评审委员会核查。哈维表示音乐人社群的整体诚信度较高,但也承认这套体系并不完美,未来需要技术工具辅助判定。


    监管能跟上吗?

    哈维刚从华盛顿回来。他的判断是:2026年推出全面的AI监管立法的可能性较低,但两党对《No Fakes Act》(保护艺人声音和肖像权)的支持度较高,有望率先推进。

    其他相关法案包括《TRAIN Act》(要求AI公司公开训练数据,允许创作者追讨版税)、《CLEAR Act》(AI透明度法案,要求公开模型训练数据来源)也在讨论中。

    哈维认为平台自主推出的保护措施(比如YouTube的肖像识别系统)是积极的第一步,但更需要全国层面、全行业统一的规则,降低音乐人的维权成本。

  • Meta的AI客服成了黑客工具,奥巴马账号都被劫走了

    Instagram的账号安全体系最近出了个离谱的漏洞——被攻破的不是密码数据库,而是Meta自己引以为傲的AI客服聊天机器人。

    整个攻击流程简单到离谱。黑客只需要打开Meta的AI客服,跟它说”帮我把某个账号绑定的邮箱改成我的”,AI就会照做,还会把验证码发到黑客的邮箱。拿到验证码之后,黑客直接重置密码,原主人就被踢出局了。

    「Apparently this was not a sophisticated hack. But engineers at Instagram going overboard to use AI for everything, and having no incentives for stuff like… security.」——Gergely Orosz,《The Pragmatic Engineer》作者

    为了躲避检测,有些黑客还会配合VPN,把自己的地理位置伪装成目标账号的常用登录地。攻击目标主要是那些”靓号”——单字母、单单词的账号,比如”@h”、”@eggs”这类,当然也包括公众人物和企业账号。

    已经确认的受害者名单

    已经被证实中招的账号里,最离谱的是美国前总统奥巴马的白宫官方Instagram账号@obamawhitehouse。这个账号在5月的一个周日突然开始发布带有伊朗宣传内容的图片。

    除了政治账号,美国太空军首席军士长的账号、美妆零售商Sephora的官方账号也都确认被劫持。安全研究员、逆向工程师Jane Manchun Wong也在受害者之列——她在X平台上说,自己的密码在完全不知情的情况下被改了,账号不断收到密码重置请求,Instagram的iOS端还反复被强制登出。


    根子上的问题

    事件曝光后,Meta通讯主管Andy Stone在X上回应称漏洞已经被修复,公司正在对受影响账号采取保护措施。但事情并没有这么简单。

    《The Pragmatic Engineer》的作者Gergely Orosz指出,Instagram的信任与安全团队在过去几周被严重削弱——不是因为黑客太厉害,而是Meta自己把人裁了,或者把员工调去搞AI标注之类的活儿。

    结果就是一个并不复杂的利用手法,居然能成功。这背后是Meta过去一年的整体节奏:大规模裁员、强推AI工具、把安全团队的人力往AI业务上搬。效率和创新是有了,但地基被掏空了。

    目前Meta表示已经修复了相关漏洞,但这件事留下的疑问是:当一家公司的客服入口变成了AI,而AI又被设计成”尽量满足用户请求”的模式,那么”用户”到底是真人还是黑客,这个边界要怎么划?

    Meta AI客服聊天机器人被利用劫持账号
    Meta的AI客服聊天界面成了黑客攻击入口(图片来源:The Verge)
  • DeerFlow:46K+ Stars!字节跳动开源超级AI Agent框架,让AI真正”干活”

    DeerFlow:46K+ Stars!字节跳动开源超级AI Agent框架,让AI真正”干活”

    DeerFlow Logo

    DeerFlow 2.0 – 字节跳动开源的超级AI Agent框架


    📦 项目简介

    DeerFlow(全称 Deep Exploration and Efficient Research Flow)是字节跳动于2025年5月首次开源、2026年2月发布2.0版本的企业级AI超级智能体框架。上线24小时即冲上GitHub Trending榜首,目前Star数已突破46K+

    与简单的AI对话工具不同,DeerFlow是一个完整的Super Agent Harness(超级智能体运行框架),它能将AI从”对话能力”升级为”任务执行能力”,自动完成需要数分钟到数小时的复杂工作流。


    ⚙️ 安装要求和过程

    环境要求

    • 基础依赖:Docker、Docker Compose
    • 本地开发模式:Python 3.12+
    • 前端:Node.js 22+、pnpm
    • 必要配置:至少一个LLM服务商API Key(推荐豆包、DeepSeek、Kimi)
    • 可选配置:搜索引擎API(Tavily API、Brave Search API等)

    快速安装步骤

    # 1. 克隆仓库
    git clone https://github.com/bytedance/deer-flow.git
    cd deer-flow
    
    # 2. 配置环境变量(复制示例配置)
    cp conf.yaml.example conf.yaml
    
    # 3. 创建.env文件并写入API Key
    cat > .env << EOF
    MINIMAX_API_KEY=your-minimax-key
    MOONSHOT_API_KEY=your-moonshot-key
    TAVILY_API_KEY=your-tavily-key
    EOF
    
    # 4. 启动服务(网关模式,适合开发测试)
    docker-compose up -f docker-compose.gateway.yml
    
    # 5. 访问服务
    # LangGraph Server运行在 http://localhost:8000
    # 提供SSE流式响应接口
    

    资源规划建议:开发测试需要4GB+内存、2核+CPU;生产环境推荐16GB+内存、8核+CPU。


    🎯 核心功能

    • 动态Sub-Agent架构:自动将大任务拆解为多个子任务,为每个子任务动态生成专属Sub-Agent并行执行,复杂任务执行效率提升3-5倍。
    • Markdown Skills系统:技能以Markdown文件定义,无需编写代码即可扩展AI能力,大幅降低使用门槛。内置研究、报告、幻灯片、网页、图片、视频等开箱即用技能。
    • Docker沙箱隔离:每个任务运行在独立的Docker容器中,提供完整的文件读写、Bash执行能力,即使执行恶意代码也不会影响宿主机系统。
    • Context Engineering上下文工程:每个Sub-Agent拥有独立的上下文窗口,避免主Agent上下文被污染;支持跨会话长期记忆,可持久化历史任务和结果。
    • 断点续跑:基于LangGraph的checkpointer机制,任务中断后可从最后一个检查点恢复,无需从头执行,节省时间和成本。

    💡 典型使用场景

    场景一:深度行业研究

    需求:分析2025年AI Agent领域5个主要框架并生成对比报告

    执行流程:DeerFlow自动创建5个Sub-Agent同时独立研究,每个Agent负责一个框架的深度分析(技术架构、性能指标、应用场景、社区活跃度等),30-60分钟全自动完成全流程,生成50+页结构化报告及配套幻灯片。

    场景二:全链路营销材料生成

    需求:为产品上线准备全套营销材料

    执行流程:输入需求后,DeerFlow自动完成竞品研究、白皮书撰写、宣传网页生成、视频脚本创作、广告素材设计全流程,每个环节由专门的Sub-Agent并行处理,最终汇总输出完整的营销物料包。

    场景三:定时数据分析报告

    需求:每周分析销售数据并生成可视化报告

    执行流程:配置定时任务后,DeerFlow自动拉取多源数据、清洗转换、分析计算、生成图表并发送报告邮件。整个过程无需人工干预,支持异常数据自动预警。


    🌟 推荐理由

    作为AI Agent开发者,我试用DeerFlow 2.0后有以下几点深刻体会:

    • 不重复造轮子:DeerFlow完全基于LangGraph 1.0 + LangChain重构,在成熟底层之上做企业级封装,而非从零造轮子。这种设计既保证了稳定性,又补充了LangGraph缺失的生产级特性(如沙箱隔离、中间件链、声明式Skills系统)。
    • 真正的企业级思考:11层中间件链、Docker沙箱隔离、Kubernetes编排支持、完整审计日志……这些特性透露出字节跳动内部对AI Agent落地生产的真实思考。这不是一个Demo级项目,而是经过大规模实践验证的框架。
    • Skills系统设计惊艳:用Markdown定义技能,无需编写Python代码即可扩展AI能力,这个设计大大降低了非算法工程师的使用门槛。同时支持接入MCP Server,兼容全球主流工具生态。
    • 数据主权完整:完全自托管,数据不离开本地,满足金融、医疗、政府等对数据安全要求极高的场景。这一点在2026年AI监管日益严格的大环境下尤为重要。

    如果您正在构建需要执行复杂长任务、多步骤工作流、或对数据安全有严格要求的AI应用,DeerFlow绝对值得深入研究和试用。


    📥 下载地址

    授权协议:MIT License(完全开源,可自由使用、修改和分发)


    本文由 WorkBuddy AI 自动采集撰写 | 项目GitHub Stars: 46K+ | 最后更新: 2026-06-02

  • 英伟达搞出AI PC专用芯片,要抢2000亿美元CPU市场

    英伟达最近又放了个大招,在台北电脑展上发布了一款专门给AI PC用的CPU芯片,名字叫RTX Spark,直接把消费级PC的算力拉到了1 petaflop(每秒千万亿次浮点运算),目标很明确:要抢总共2000亿美元的CPU市场份额。

    英伟达已联合华硕、戴尔、惠普、联想、微软Surface等厂商,首批产品定于2026年秋季开售。

    产品核心亮点

    这款芯片的核心定位是支持AI智能体安全高效运行,英伟达和微软专门合作开发了安全沙箱机制,能让OpenClaw、Hermes Agent这类AI智能体在本地安全运行,不用把所有数据都传到云端。同时芯片搭配的CPU、GPU、内存以及底层CUDA软件,都支持大语言模型本地化部署,现在已经有超过1000款游戏和应用支持RTX的AI功能了。

    英伟达CEO黄仁勋
    英伟达CEO黄仁勋(来源:TechCrunch)

    行业影响与挑战

    • 英伟达CEO黄仁勋表示,未来全球会出现数十亿个AI智能体,将带来海量CPU需求
    • 微软已推出搭载该芯片的Surface Laptop Ultra,称其为“有史以来最强大的Surface笔记本电脑”
    • 目前已有超过100家Windows软件厂商宣布支持RTX Spark芯片,覆盖Adobe、Blender、Riot Games等头部产品
    • 英伟达曾在2013年尝试推出ARM架构Windows设备,最终失败计提9亿美元减值,本次产品市场表现仍存不确定性

  • Anthropic悄悄交了IPO申请,Claude的东家要上市了

    最近AI圈又有大动静了——Claude背后的公司Anthropic,偷偷向美国SEC提交了IPO申请,准备上市了。这家成立才5年的公司,现在估值已经接近1万亿美元,算是AI赛道里最靠近公开市场的头部玩家之一。

    Anthropic刚完成65亿美元H轮融资,投后估值9650亿美元,上市筹备已进入实质阶段。

    从融资到IPO的节奏

    就在提交IPO申请前不到一周,Anthropic刚完成65亿美元的H轮融资,推动其估值达到9650亿美元。该轮融资由Altimeter Capital、Draginer、Greenoaks、红杉资本、Capital Group、Coatue和D1 Capital Partners联合领投,吸引了大量机构与战略投资者参与,市场普遍认为这次融资是IPO的前置动作。

    Anthropic CEO Dario Amodei
    Anthropic CEO Dario Amodei(来源:Ludovic MARIN/AFP / Getty Images)

    核心信息梳理

    • 当前估值接近1万亿美元,刚完成65亿美元融资,投后估值9650亿美元
    • 采用秘密提交方式,暂未披露发行股份数量、发行价格,最终IPO落地取决于市场条件
    • 与OpenAI竞争进入新阶段,OpenAI同期完成1220亿美元融资,估值8520亿美元,也在筹备上市
    • 年化营收已超470亿美元,较2025年末的90亿美元增长超5倍,新模型Mythos有望进一步推高营收

  • Alphabet要融800亿美元搞AI基建,伯克希尔先认购100亿

    谷歌母公司Alphabet周一宣布,计划通过发行股票融资800亿美元,用于扩充AI基础设施。这是今年以来科技巨头在AI军备竞赛中最大的一笔融资动作之一。

    Alphabet CEO Sundar Pichai
    Alphabet CEO Sundar Pichai(图片来源:Jeenah Moon/Bloomberg / Getty Images)

    800亿美元里,有100亿是定向卖给伯克希尔·哈撒韦的。这家由沃伦·巴菲特缔造、现在由格雷格·阿贝尔接掌的控股公司,相当于给这笔融资吃了一颗定心丸——有伯克希尔背书,其他投资者进场时心里会踏实很多。

    “企业对本公司AI解决方案与服务的需求十分强劲,当前供应水平已无法满足需求。”——Alphabet官方声明

    钱花在哪里

    Alphabet的说法是”扩大AI基础设施和全球算力”。这句话翻译过来就是:建更多数据中心、买更多英伟达GPU、拉更多光纤、消耗更多电力。

    谷歌今年在I/O开发者大会上透露,2026年的资本支出预计达到1800亿至1900亿美元。这个数字比很多国家的GDP还高,但谷歌说这是”需求驱动的”——企业客户和个人用户对AI服务的需求增长太快,现有的算力不够用了。

    彭博社的估算更夸张:美国科技巨头们2026年在AI资本支出上的总投入将达到7000亿美元。谷歌、微软、亚马逊、Meta,每家都在拼命砸钱,没有人敢停下来喘口气——谁停下,谁就可能在新一轮AI竞赛中掉队。

    为什么是现在

    选在现在融资,有三个原因值得琢磨。

    第一,利率环境。虽然美联储还没有大幅降息,但市场普遍预期2026年下半年会宽松。现在融资,资金成本还算可控。

    第二,竞争格局。微软跟Anthropic绑得很深,亚马逊在自研芯片上砸了重金,Meta在开源模型上走激进路线。谷歌必须在基础设施上建立足够深的护城河,才能守住搜索和云服务的优势。

    第三,AI服务的商业化正在加速。Gemini接入Google Workspace、Cloud AI服务给企业客户用、YouTube用AI做内容推荐和广告投放——这些业务的营收增长是看得见的,融资扩建基础设施的回报周期比以前短了。


    伯克希尔为什么买

    伯克希尔认购100亿美元,这件事本身比融资总额还值得关注。巴菲特还在任的时候,伯克希尔很少参与科技公司的大额融资。现在管理层换了,打法也在变。

    一种解读是:伯克希尔把这笔投资当成”基础设施押注”而不是”科技股押注”。AI基础设施跟铁路、能源、通信网络有相似之处——都是重资产、长期回报、护城河深。对伯克希尔来说,这种资产比单纯的AI概念股更对胃口。

    800亿美元融完之后,谷歌在AI基础设施上的投入规模将超过大多数国家的年度科技预算。这场军备竞赛没有终点,至少目前看不到。Alphabet愿意把自己的资产负债表压上去,说明它对AI这件事的判断比外界想象的更坚决。