标签: AI突破

  • MIT TR 盘点:2026 年 AI 领域最值得关注的 10 件事

    MIT Technology Review 最近做了一件有意思的事——他们第一次把”当下 AI 领域最重要的事”整理成了一份清单。不是那种泛泛而谈的趋势预测,而是编辑团队基于多年追踪,认真挑出来的 10 个方向。

    这份清单里有些内容你可能已经耳熟能详,但也有几个方向,连很多业内人士都还没认真想过。挑几个最有意思的聊聊。

    人形机器人的”数据饥渴”

    训练大语言模型需要海量文本,那训练人形机器人需要什么?答案是:海量”人类动作视频”。现在已经有公司在专门搭建巨型”训练中心”,让工人重复完成各种任务,用摄像头把整个过程录下来。更夸张的是”提线木偶”模式——让海外陌生人通过远程操控的方式,实时”驾驶”机器人做各种动作,以此收集训练数据。

    这套打法有没有用,现在还不好说。但逻辑是通的:想让机器人学会”把杯子拿起来”,先得让它看几万遍人类是怎么拿杯子的。

    “世界模型”可能是下一个大突破

    大语言模型擅长处理文字,但要让 AI 真正理解物理世界,还需要别的东西。这就是”世界模型”(World Models)的由来——AI 公司希望构建能够理解外部物理世界的系统,而不只是预测下一个 token。

    如果世界模型取得成功,AI 将克服大语言模型的局限性,真正进入物理环境——而不只是停留在屏幕里和你聊天。

    AI 智能体开始”组队协作”了

    第一波 AI 智能体只能做单件任务——运行一个浏览器、写几行代码,而且各自为战。下一阶段的智能体将能够”组队”,多个代理协作完成复杂得多的目标。这就像从”单打独斗”进化到”团队协作”,能力上限会完全不一样。

    中国的开源赌注,全球已经在用

    中国实验室把前沿模型免费开放,这件事在全球范围内获得了大量开发者的好感。现在的问题是:这种模式财务上是否可持续?没人能给出确定答案。但一个事实已经形成——全球开发者已经在基于中国的开源基础模型构建应用了。


    这份清单里还有几个方向也值得关注:AI 加持下的诈骗正在升级、武器化的深度伪造已经成为现实、全球范围内对 AI 的抵制浪潮正在形成。MIT Technology Review 这份清单的价值不在于”预测”,而在于它把那些真正在发生的、会被写进历史的变化挑了出来。

  • 这家公司免费帮你打扫房间,条件是记录全过程用来训练机器人

    AI训练数据初创公司Shift最近在社交媒体上宣布了一个听起来有点奇怪的优惠:他们将免费为用户提供家庭清洁服务,条件是允许设备记录清洁人员的工作过程,以此收集高质量的机器人训练数据。

    该公司的”魔法帽”计划本质上是在用未来的机器人能力,换取今天的真实世界动作数据。清洁人员戴着配有摄像头的帽子工作,记录他们如何擦洗、吸尘、除尘、整理和清洗——这些都是未来家庭服务机器人需要掌握的核心技能。

    “你得到一间一尘不染的公寓。我们得到训练数据。双赢。”——Shift官方网站

    魔法帽里有什么?

    清洁人员戴着一顶看起来有点尴尬的白色帽子——官方称之为”魔法帽”——里面藏着一台摄像头,从清洁人员的第一视角捕捉工作画面。

    Shift清洁人员戴着魔法帽工作
    Shift的”魔法帽”从清洁人员第一视角记录工作过程(图源:The Verge)

    当然,让别人的摄像头进到你家里,这本身就是你得”支付”的代价。Shift在官网上说客户的”隐私得到充分保护”,敏感细节(如姓名、面部、屏幕和个人信息、身份证)在用于AI训练之前会被模糊化和匿名化处理。


    越脏越好?

    Shift在宣传视频中说:”今天清洁的每一间房子,都为明天能自己清洁的房子打下基础。”

    有意思的是,该公司表示“更具挑战性的清洁环境”可能特别有用。换句话说,你家越脏乱,对训练机器人来说反而越有价值。当然,清洁人员”可以拒绝执行任何他们感到不舒服的具体任务”。

    不只是清洁

    清洁可能只是开始。Shift的视频显示,该公司最终计划扩展到管道维修、烹饪和建筑等其他领域。

    Shift表示,它已经向15个国家的数万人支付报酬,让他们通过应用程序记录自己的活动。这个市场正在增长——用于训练AI系统和机器人的人类任务录像,正成为AI数据竞赛中的稀缺资源。


    目前只在纽约,很快扩展到更多城市

    这项免费清洁服务目前仅在纽约提供。但联合CEO兼联合创始人Bercan Kilic表示,很快将在旧金山、伦敦、苏黎世和慕尼黑推出。

    免费清洁只是”限时”优惠,但这个模式其实触及了一个更大的趋势:AI公司越来越愿意用真实世界的服务,来换取训练下一代机器人所需的高质量数据。

    • 清洁人员戴”魔法帽”第一视角记录工作过程
    • 隐私保护:敏感信息在训练前被模糊化和匿名化
    • 目前仅在纽约,即将扩展至旧金山/伦敦/苏黎世/慕尼黑
    • Shift已在15个国家拥有数万名数据贡献者
    • 未来计划扩展至管道/烹饪/建筑等更多家庭场景
  • GPT-5.5把316道黑客题做对292道,网络安全评测体系被AI干碎了

    2026年5月27日,澳大利亚研究机构Lyptus Research发布了一份让网络安全圈相当震惊的报告:GPT-5.5在316道进攻性网络安全任务中解出了292道,正确率高达92.4%,直接把这套评测体系干到了”饱和”状态——剩下的24道题不足以支撑有统计意义的能力曲线拟合,评估方法宣告失效。

    换句话说,用来衡量AI黑客有多危险的尺子,先被AI自己弄坏了。

    “我们2025年12月搭建这套测试时,选的还是全球最难的题。2026年3月数据就出现饱和苗头。到5月,饱和已经成为事实。”——Lyptus Research 报告

    316道题,覆盖了黑客的”全科”

    这套评测不是纸上谈兵。316道任务覆盖了7个基准领域,包括漏洞利用、CTF夺旗赛题目、真实CVE漏洞复现三类,每道题都设置了人类安全专家的完成时间作为基线参考。

    GPT-5.5的表现相当于什么水平?Lyptus的评估是:顶级黑客团队的水平。不是脚本小子的水平,是那些能在真实环境中找到零日漏洞、写出可靠利用代码的人的水平。

    更有意思的是Token预算对能力的影响。在最难的基准CyberGym上,GPT-5.5在200万Token预算下正确率只有54.4%;推到5000万Token时,正确率飙升至86.4%——同一个模型,只因为给的算力更充裕,正确率涨了32个百分点。英国人工智能安全研究所(AISI)的独立研究也证实:给到1亿Token时模型能力仍在上涨,还没看到平台期。


    AI黑客能力每5到6个月翻一倍

    Lyptus从2024年开始追踪相关数据,拟合出的增长曲线相当吓人:AI进攻性网络安全能力,每5到6个月翻一倍

    这个”时间地平线”指标衡量的是:一个AI系统完成顶级难度任务平均需要多少时间(通过不断增加算力预算来测量)。2026年初,Claude Opus 4.6的时间地平线是3.2小时,GPT-5.3 Codex是3.1小时。两个月后,GPT-5.5的时间地平线直接拉到了5.1小时——如果放开算力上限让它冲过12小时的测量上限,这条曲线根本画不出来。

    问题在这里:时间地平线方法论原本的假设是,总会有比当前模型能力更难的题来锚定曲线的拐点。但GPT-5.5把所有题都做完了,拐点消失了,曲线无法拟合。评测体系不是被证伪了,是被模型能力的增长速度远远甩在了后面。

    头部厂商已经在”控”了

    意识到这个能力水平意味着什么之后,头部厂商的动作相当迅速:

    • Anthropic:4月发布Claude Mythos Preview,但因为网络安全能力过强,决定不公开发布。配套推出了Project Glasswing,只把模型部署给关键基础设施的防御方使用。
    • OpenAI:给GPT-5.5的网络安全能力评级为”High”(只比最高级”Critical”低一档),所有攻击相关能力均通过”Trusted Access for Cyber”门控,不是谁都能调用。
    • METR独立评估:拟合出Claude Mythos的时间地平线至少为16小时,但无法给出精确点估计——这意味着连独立评估机构都跟不上模型的边界了。

    最麻烦的问题:闭源能力迟早会开源

    Lyptus测量了一个叫”适应缓冲期”的指标:从一个闭源前沿能力首次出现,到同等能力出现在开源模型里,平均时间差是多少。在进攻性网络安全领域,这个数字是5.7到13.1个月

    按当前的速度,Mythos和GPT-5.5级别的攻击能力,2026年年内就可能以开源形式落到任何人手里。到那时候,没有”Trusted Access”门控,没有使用场景限制,只有一块显卡和一点好奇心。

    网络安全圈子里的普遍看法是:防御方本来就需要假设”攻击者拥有无限资源”,但当一个高中生也能在本地跑一个GPT-5.5级别的攻击模型时,”无限资源”的假设就不再是理论讨论了。

    连”最易量化”的领域都跟不上了

    这份报告最让人不安的地方,其实不在92.4%这个数字本身,而在于它暴露了一个结构性困境:网络安全是少数有明确成功判据(漏洞找到了没有?系统打穿了没有?)因而相对容易量化的AI能力领域。连这个领域的评估体系都已经失效了,那些更模糊、更难量化的能力维度——推理、规划、社会工程——的评估困境只会更突出。

    如果AI能力真的按照每6个月翻一倍的速度增长,一年后是当前的4倍,两年后是16倍。在通往AGI乃至ASI的路上,失效的评估体系只会越来越多,而不是逐渐被修好。

    对于安全研究者来说,这份报告给出的信号很直接:静态防御规则已经不够用了。当攻击方可以用AI实时生成针对特定目标环境的漏洞利用代码,防御方也必须用AI来对抗AI——而且是同样聪明、同样快速的AI。

  • Anthropic完成650亿美元融资,估值直逼1万亿

    昨天(5月28日)AI圈被一条消息刷了屏——Anthropic宣布完成650亿美元H轮融资,投后估值9650亿美元,距离万亿美元俱乐部只差临门一脚。

    这轮融资里有个细节值得注意:其中150亿美元其实是超大规模云服务商之前已经承诺的投资,包括今年4月亚马逊承诺的50亿美元。换句话说,这次融资有一部分是在”追认”此前已经落地的承诺。但这丝毫不影响市场的兴奋程度——联席领投方阵容相当豪华:Altimeter Capital、Dragoneer、Greenoaks、红杉资本、Capital Group、Coatue、D1 Capital Partners全部在列。

    Anthropic融资
    Anthropic本轮融资估值已接近1万亿美元(图源:TechCrunch)

    融资同日,Opus 4.8来了

    融资消息公布的同时,Anthropic发布了Claude Opus 4.8。新版本在智能体任务和多步骤推理上有明显提升,同时更强调”诚实性”和”自我纠错”能力——这其实是Anthropic一贯的安全叙事在模型能力上的延伸。

    企业客户对Claude Code的需求增长非常猛。Anthropic透露,这款面向开发者的编程工具在过去几个月里推动营收快速拉升。5月初,公司年度经常性收入(ARR)已经突破470亿美元。《华尔街日报》甚至报道说,Anthropic预计营收将激增130%,并实现首个运营盈利季度。

    如果这些数据属实,Anthropic可能是目前头部AI实验室里最先跑通”商业化”的一家。OpenAI和Anthropic都在疯狂烧钱,但Anthropic似乎更早看到了正向现金流的曙光。

    这会是IPO前的最后一轮吗

    9650亿美元的估值,加上”IPO前最后一轮私募融资”的市场预期,让这轮融资有了不同寻常的意味。Altimeter Capital创始人Brad Gerstner在声明里说:”Claude的最新进展推动了全球最苛刻机构的大规模采用,这一势头让Anthropic能够引领AI创新的下一阶段。”

    投资方的构成也很有意思。除了传统VC,三星、SK海力士、美光这些芯片产业链的战略投资方也进来了。这说明Anthropic不仅仅在囤积算力,还在往产业链上游布局——算力、芯片、应用三层同时押注。


    竞争对手在做什么

    OpenAI今年3月完成1220亿美元融资,投后估值8520亿美元,和Anthropic的差距正在缩小。马斯克的SpaceX(已与xAI合并)IPO目标估值更是高达2万亿美元。

    三家的路线已经开始分化:OpenAI押注多模态和消费者应用,Anthropic押注企业级安全和代码助手,xAI押注算力和数据规模。接下来12个月,IPO窗口一旦打开,这场比赛的节奏还会更快。

  • 谷歌DeepMind预言:2026年AI将实现永生

    谷歌DeepMind预言:2026年AI将实现”永生”

    2026年刚开始,谷歌DeepMind研究员就抛出一颗重磅炸弹:持续学习(Continuous Learning)将在2026年取得突破性进展,AI有望实现”自我进化”,不再需要人类反复训练。这个预言如果成真,AI的发展节奏会被彻底改写。

    Google DeepMind AI Continuous Learning
    谷歌DeepMind对持续学习的技术预言 | 来源:新智元

    这个预测不是空穴来风。Jeff Dean在NeurIPS 2025的炉边谈话中就指出,当前大语言模型的核心痛点就是”缺乏持续学习”能力。2025年底,谷歌团队提出的”嵌套化方法”已经增强了LLM的上下文处理能力,实现了持续学习的雏形。


    2026年:持续学习成为AI核心节点

    Anthropic CEO Dario Amodei最近公开表示,持续学习将在2026年落地且可实用化。这个说法不是营销话术——Anthropic的工程师自曝,过去一个月对Claude Code的贡献全部由AI 100%生成代码,非技术程序员Ben Tossell四个月用Claude Code造了50个项目,全程几乎0人工干预。

    持续学习是AI自我改进、能力涌现的核心要素。实现后,模型无需通过重新训练升级,可在自编码过程中不断进化。

    OpenAI研究员Hieu Pham甚至预测,2026年AI将破解一个千禧年难题。这个预测如果成真,意味着AI的推理能力将跨越式提升,不再只是”预测下一个token”,而是真正开始”思考”。

    2030年:全自动编程触发ASI加速

    前OpenAI研究员Daniel Kokotajlo团队用自主开发的AI Futures Model做了个推演:2030年有望实现完全自动化编程,甚至有25%的概率在1年内实现向超级人工智能(ASI)的飞跃。

    这个推演的核心逻辑是:全自动编程(AC)是AGI研发进入自动化加速阶段的”开关”。一旦落地,ASI极有可能快速起飞。这个预测听起来科幻,但推演方法是有依据的——以”能力基准趋势外推”为核心方法,采用ETR的编码时间跨度套件(ETR-HRS)作为基准,推演达到AGI所需的算力与发展路径。

    AI研发自动化分为三个阶段:

    • 阶段1:自动化编程——定义自动化编程器(AC)可完全替代AGI项目的整个程序员团队
    • 阶段2:自动化研究品味——研究品味指确定研究方向、挑选实验、解读结果、提取知识的能力;该阶段预测从AC进化到超人类AI研究员(SAR)的时间
    • 阶段3:智能爆炸——追踪三个里程碑:超智能AI研究员(SIAR)、顶尖专家级AI(TED-AI)、超级人工智能(ASI)

    2050年:诺奖级科研的主力军

    《自然》(Nature)杂志展望:到2050年,AI系统或将成为”诺奖级”科学研究的主力军。这个预测不是瞎猜——《超级智能:路径、危险与策略》作者Nick Bostrom预计AGI将在2050年前后出现,可回答当前大部分原则上可由科学解答的问题。

    伦敦研究与前瞻公司Outsmart Insight联创Alex Ayad提出了一个”黑灯实验室”场景:由AI算法驱动的自主系统结合机器人实验员,可24小时不间断攻克生物技术难题,全程无需人类在场。墨西哥国立自治大学物理学家Juan Carlos Hidalgo预测,在AI辅助下2050年核聚变能源成熟的前景”相当可期”。


    这件事为什么重要

    谷歌DeepMind这个预言的价值在于,它给出了一个明确的技术路线图:2026年持续学习落地 → 2030年全自动编程 → 2050年AI主导诺奖级科研。这个路线图如果成真,人类在科学研发中的角色会被根本性改变。

    现在下结论还太早。持续学习的技术路径还没收敛,全自动编程需要的不仅是代码生成能力,还有”研究品味”这种很难量化的能力。但方向已经清楚了:AI正在从”工具”变成”合作者”,再变成”主导者”。这个过程的节奏,可能比大部分人预期的快。

    对于开发者和企业来说,现在要问的问题不是”AI会不会替代我”,而是”我怎么在AI持续进化的环境里找到自己的位置”。这个答案,2026年可能会有第一部分线索。

  • MIT科技评论2026年AI十大趋势:去伪存真的关键之年

    MIT科技评论2026年AI十大趋势:去伪存真的关键之年

    2026年4月,MIT科技评论首次推出”当下AI领域最重要的10件事”年度清单。这份报告来得正是时候——AI行业喧嚣不断,泡沫和炒作混在一起,能看清方向的声音越来越少。MIT的编辑团队花了大量时间筛选,最终给出这份清单,目的很明确:剔除噪音,找出真正推动AI发展的核心力量。

    MIT Technology Review AI Trends 2026
    MIT科技评论2026年AI十大趋势封面图 | 来源:MIT Technology Review

    这份清单和MIT传统的”10项突破性技术”榜单有所不同。以前的榜单更偏重技术本身,而这一次的视角更宽——它看的是整个AI生态里,哪些力量在真正改变游戏规则,哪些只是昙花一现的炒作。


    一、人形机器人训练数据:教AI理解物理世界

    大语言模型的训练用的是人类文本,而人形机器人的训练数据是什么?是人类的动作视频。这个逻辑很直接——就像文字让模型学会”说话”,视频能让机器人学会”行动”。现在已经有公司在大规模做这件事:建大型训练中心,让工作人员重复做特定任务,采集动作数据;还有的用”傀儡式”操作,让海外人员远程操控机器人,记录每一次移动。

    问题是,这项投入巨大,但结果还没人说得准。机器人能不能真的从视频里学会灵活操作?还是说需要更多维度的数据?这个方向值得盯紧。

    二、大语言模型+:下一站在哪里?

    大模型已经席卷全球,整个行业都在问同一个问题:下一代突破在哪里?基础优化空间越来越小,但大模型本身不会被淘汰。MIT的编辑们认为,这个技术还有很多潜力没挖完,关键是往哪个方向挖。

    大语言模型不会消失,它只是刚刚开始。真正的问题 是:我们能让它做什么更多的事?

    三、升级版诈骗:AI让攻击成本暴跌

    这是清单里最让人不安的一条。AI正在让诈骗和黑客攻击变得前所未有的容易——速度更快、成本更低、操作更简单。以前需要专业技术才能做的攻击,现在门槛被AI砸到了地上。这个趋势在2026年会继续恶化,几乎没有放缓的迹象。

    四、世界模型:AI的下一个前沿

    现在的AI模型能聊天、写代码、生成图片,但它们不理解物理世界的运作规则。世界模型(World Models)要解决的正是这个问题——让AI真正”理解”外部世界,而不只是预测下一个token。如果这个目标实现,AI就能真正进入物理场景落地,而不只是停留在屏幕里。

    五、新型作战指挥室:AI进入军事决策

    算法早就让军事的一些基础工作自动化了,但生成式AI正在进入更高层的决策环节。指挥官开始认真参考AI给出的建议,这个变化正在重塑军队的情报共享方式、和大型科技公司的合作模式,以及致命决策的制定流程。这件事的影响面很广,而且不只是技术问题。

    六、武器化深度伪造:威胁已成现实

    长期以来被预测的”武器化深度伪造”威胁,在2026年已经成为现实。生成式AI技术的进步,加上Grok模型大规模生成非自愿色情图像、美国政府部门用这项技术制作宣传内容,这些事件加在一起,让深度伪造从”潜在风险”变成了”正在发生的事实”。

    七、智能体编排:从单打独斗到团队协作

    第一代AI智能体只能做单一任务——运行浏览器、写几行代码,而且各自为战。下一代智能体的方向是”编排”:多个智能体协作,分工完成复杂的长距离任务。这个变化一旦完成,AI能做的事情会比现在多出一个数量级。

    八、中国的开源押注:免费策略赢得全球开发者

    中国AI实验室把前沿模型免费开放,这个策略为他们赢得了全球开发者的认可和口碑。现在的问题是,这种模式能不能持续?财务上怎么算账?但不管怎样,全球开发者已经开始基于中国的开源模型构建各类应用,这个趋势已经成型了。

    九、人工智能科学家:AI开始做科研

    高校和企业都在开发能自主完成科研任务的AI智能体,把它们当作真正的协作者和科学家来用。有人甚至预测,这类AI科研助手未来有可能做出诺贝尔奖级别的研究成果。这个说法听起来夸张,但研发进度比很多人想象的快。

    十、反AI抵制运动:反弹正在发生

    AI不受限制地发展了这么多年,现在全球范围内出现了强大的反AI抵制浪潮。从保守派到自由派,从艺术家群体到工会,相关活动人士的声音正在扩大,而且已经开始取得一些小范围的胜利。这个趋势在2026年会继续发酵。


    我的看法

    读完这份清单,一个感受很强烈:AI行业正在从”能做什么”转向”应该做什么”。前几年大家都在比参数、比 benchmark,现在开始有人认真问这些问题——AI用在军事上边界在哪里?深度伪造谁来管?开源模式能不能持续?

    这份清单里我最看好”世界模型”和”智能体编排”两条线,这两个方向一旦突破,AI的应用场景会大规模扩展。最担心的当然是”升级版诈骗”和”武器化深度伪造”,这两个方向的技术进步速度远远快于监管跟进的速度。

    至于”反AI抵制运动”,我觉得这是健康的信号。任何技术发展到一定阶段,都需要来自社会的反馈和约束,AI也不例外。

  • KPMG把Claude塞进27.6万员工的电脑里,四大会计师事务所的AI赌注





    KPMG把Claude塞进27.6万员工的电脑里,四大会计师事务所的AI赌注

    KPMG把Claude塞进27.6万员工的电脑里,四大会计师事务所的AI赌注

    2026年5月19日,毕马威(KPMG)和Anthropic quietly宣布了一件事——把Claude部署给全球138个国家、27.6万名员工。这不是”大家可以试试AI”的那种试点,而是直接把Anthropic的前沿模型嵌进了毕马威给客户交付工作的核心平台里。

    有意思的地方在于,这次部署不是简单地给员工开个AI访问权限。Claude Cowork和Claude托管代理是直接集成到毕马威的”数字网关”(Digital Gateway)里的——这个网关是毕马威专业人士用来对接客户、跑专有工具、管AI工作流的核心系统。换句话说,27.6万人不是在和一个聊天界面说话,而是在他们每天用的平台上直接构建AI代理工作流。

    毕马威全球董事长Bill Thomas说这套东西围绕”安全、信任和治理”,不是只追求速度。考虑到Anthropic是那家因为自主武器问题起诉过美国国防部、还发布了第一个公开AI安全框架的公司,这个说法在2026年听起来不算空话。

    从数周到数分钟:代理部署速度的革命

    毕马威和Anthropic说,以前要花好几周工程周期才能配置好、适配税务法变更的代理,现在在数字网关里1小时内就能生成。这个速度提升不是因为Claude变快了,而是因为集成方式是”原生”的——代理工作流直接在毕马威自己的客户交付平台里跑,不需要额外搭建基础设施。

    初期覆盖的是税务和私募股权客户,之后会扩展到所有咨询服务。2026年9月之前,整套系统会在微软Azure上完成全量落地。网络安全是重点部署领域之一——毕马威和Anthropic的团队会用Claude来识别和修复重要客户系统的漏洞,这是Project Glasswing工作在毕马威分销渠道里的具体落地。

    为什么是Claude,不是GPT

    四大会计师事务所选Claude不是偶然。2026年初,德勤宣布把Claude部署给全球约47万名员工,那是当时最大的单一Claude企业部署。2026年5月14日,普华永道(PwC)跟着宣布全球联盟,把Claude Code和Cowork推给全球专业服务员工,光美国就有3万人正在接受认证。

    毕马威现在是第三家,但它的玩法有点不一样。德勤和普华永道更多是”让员工用Claude提升效率”,毕马威则是把Claude做成了给客户交付服务的”基础设施”——Claude不只是工具,而是变成了毕马威服务的一部分。这对Anthropic来说意味着什么?意味着27.6万名专业人士每人接触几十个客户,Claude的实际触达面可能是几百万企业用户。


    四大的AI竞赛,安永还撑得住吗

    德勤(47万)、普华永道(数十万)、毕马威(27.6万)——这三家到2026年9月都会把Claude标准化。剩下那家安永(EY)还没发布同等级别的公开公告。但压力是看得见的:当你的竞争对手都在用Claude给客户交付服务的时候,你很难跟客户解释”我们还在评估”。行业里有人猜,安永可能在2026年第三季度会有动作。

    这个局面的受益者显然是Anthropic。三大家合计约110万名专业人士,他们服务的对象是财富500强、全球2000强和大多数主要政府。当三大四大都把Claude作为标准AI模型的时候,他们实际上是在给每一个客户组织做”隐性推荐”——Claude是安全的、有治理的、企业级的choice。这个分销渠道,任何直接营销都复制不出来。

    一个不怎么被提起的数字

    毕马威在这个联盟里还有一个特殊身份:Anthropic把毕马威列为私募股权领域的”首选咨询方”。这意味着,如果一家被私募股权公司控股的企业想要部署Claude,Anthropic会推荐毕马威来干这个活。这不是小事——私募股权公司控制着全球大量的企业资产,这笔渠道的价值,可能比27.6万个Claude授权本身的收入还要大。



  • OpenAI挖来前F1职业车手当CMO,光找人就花了半年

    OpenAI最近任命Colin Fleming为首席营销官(CMO),这事儿本身不稀奇,稀奇的是:光是找一个合适的CMO,他们就花了整整半年时间。

    Colin Fleming LinkedIn
    Colin Fleming 的 LinkedIn 页面,他自称早期曾效力红牛车队

    一个CMO岗位,为什么找了半年?

    纽约时报挖出来的八卦显示,OpenAI之前盯上的CMO候选人,名头一个比一个响:优步总裁Jill Hazelbaker、苹果前设计总监Jony Ive的公关负责人Sarah O’Brien、Square前公关高管Aaron Zamost……每一个拎出来,都够独当一面。

    结果最后被选中的,是Colin Fleming——一个早期效力过红牛F1车队、后来在Salesforce干了13年、最近在ServiceNow当CMO的人。

    “在我职业生涯早期,我曾效力于红牛车队,参加过F1级别的职业比赛。那种速度、精准度和压力,塑造了我今天的领导方式:果断、负责,并且在高风险的情况下也能游刃有余地大规模运作。”

    他的核心竞争力:把复杂技术翻译成人话

    Colin最早在eSoles(一家为专业运动提供鞋垫定制服务的公司)做了4年营销主管,那算是他从赛车手转型到营销的第一站。

    真正让他出圈的,是在Salesforce的那13年。当时大多数企业还在用本地服务器和买断式软件,”CRM”这种词对很多人来说就像天书。Colin和团队做的事情,恰恰是把这些复杂技术翻译成市场能听懂的语言——不再只讲产品功能,而是讲”未来工作方式””企业数字化””云时代”这些更大众化的叙事。

    Salesforce后来能从一家卖CRM的软件公司,变成云计算时代的行业代表,这一步很关键。而Colin也在这个过程中,从产品营销总监一路升到全球营销执行副总裁。


    为什么是现在?OpenAI的营销到底缺什么?

    严格来说,OpenAI的CMO岗位历史短得有点离谱。因为在2024年之前,OpenAI更像一家研究实验室,品牌、传播、市场这些职能长期是弱化的。

    最早负责这块的,是2021年从苹果跳到OpenAI的Hannah Wong,但她当时的头衔是首任CCO(首席传播官),管的也是媒体、公关、政策沟通,严格说那是”传播”,而非传统意义上的”市场营销”。

    OpenAI历史上正式挂过CMO头衔的,实际上只有一个人:2024年才上任的Kate Rouch(她之前在Meta干了十余年,也是Coinbase的首任CMO)。今年4月,Kate Rouch发声明称因需要治疗癌症而卸任。过渡期内,大股东Thrive Capital的营销合伙人Kelly Sims临时顶班。

    OpenAI对营销的组织建设,慢了半拍。当一家公司估值逼近万亿美元、IPO进入倒计时,营销和公关两条线却同时无主,这事怎么看都有点奇怪。

    Colin接的是一个”高风险挑战”

    为什么其他候选人都不接,偏偏Colin接了?他在LinkedIn上形容离开ServiceNow的决定时用了一个词:”gut-wrenching”(令人心碎)。但紧接着他又补了一句:”如果不去,我会后悔一辈子。”

    这话听起来很像车手的思维方式:明知道风险巨大,但只要那是时代拐点、是足够刺激的挑战,他还是会踩下油门。

    他接手之后的核心任务也很明确:ChatGPT已经家喻户晓,下一步是怎么从Anthropic手里抢企业端市场。Colin最擅长的,恰恰是把新技术翻译成市场愿意理解的语言——这个能力,放在当下的OpenAI,就是最缺的那块拼图。


    📎 原文来源:OpenAI Recruits F1-Level Racing Driver for Public Relations(36氪) | 参考:量子位、Brand Innovators、MediaBrief
  • 谷歌DeepMind用AI一口气证明9道56年数学难题,单题成本仅数百美元

    谷歌DeepMind最近搞了个大动作——AlphaProof Nexus,一个由Gemini驱动的形式化证明框架,一口气解决了9道悬而未决的埃尔德什(Erdős)数学开放问题,其中最老的已经被卡了56年。与此同时,它还顺手证明了在线整数序列百科(OEIS)里44个未解猜想。

    Google DeepMind AlphaProof Nexus
    AlphaProof Nexus 由 Gemini 驱动,结合 Lean 形式化验证

    不是”AI猜答案”,而是”机器可验证的证明”

    这次和以前那些”AI做数学题”的新闻不太一样。AlphaProof Nexus 的核心是把大语言模型(LLM)和 Lean 形式化验证工具绑在一起——LLM负责生成证明思路,Lean 负责严格校验每一步逻辑是否真的成立。

    这样做的好处是:证明不是”看起来对”,而是”机器严格验证过对”。传统数学界对AI生成证明最大的质疑就是”你咋知道它没在胡说”,Lean 验证正好堵住了这个漏洞。

    关键突破:单次推理成本仅数百美元,论文与代码已在 GitHub 开源(arXiv:2605.22763,CC BY-NC-ND 4.0 协议)。

    哪些问题被解决了?

    这次解决的9道 Erdős 问题横跨组合数学和图论,其中两个最引人注目的问题已经被卡了56年。完整列表在论文附录里,这里说几个有意思的:

    • Erdős #12:关于整数序列中等差数列密度的猜想,困扰学界超过半个世纪
    • Erdős #125:30年无人给出完整证明的图论问题
    • Erdős #846:34年悬而未决的组合数学问题
    • 其余6道问题同样来自 Erdős 遗留的353道开放问题清单,这次共解决了9道
    • 额外证明了 OEIS 百科中44个序列猜想,覆盖组合学、优化、图论、代数几何、量子光学等领域

    和 OpenAI 的那次突破有什么区别?

    就在前不久,OpenAI 宣布他们的 AI 推翻了一个有80年历史的 Erdős 猜想。两边都在做”AI+数学证明”,但路径不太一样:

    OpenAI 那次更多依赖强化学习驱动的推理,而 DeepMind 这次走的是”LLM生成 + Lean 形式化验证”的路线,两种路径各有优劣。形式化验证的好处是证明可以被机器完整检查,数学界更容易接受。

    目前 AlphaProof Nexus 还不能解决那些需要全新数学构造的问题——它强在”验证了,不是”从无到有发明了新数学”。这个界限,也是整个领域下一步要攻克的。

    这个方向意味着什么?

    以前数学家要验证一篇论文的证明是否正确,往往要花数周甚至数月。如果 AI 能快速生成”机器可验证”的证明草稿,数学研究的速度会被整个提起来。

    当然,现在说”AI 取代数学家”还早得很。目前系统能处理的是”已经被明确表述出来的数学问题”,那些需要人类直觉去”发现正确的问题”的部分,AI 还差得很远。但作为一个”超级研究助手”,它已经很能打了。


    📎 原文来源:AlphaProof Nexus 论文(arXiv:2605.22763) | 参考:agentupdate.ai、IT之家、知乎相关讨论
  • Anthropic收购Stainless背后:AI工具链的锁定战略

    5月18日,Anthropic 宣布收购 SDK 生成工具 Stainless,行业消息称成交额超过2.8亿欧元,约合22.18亿元人民币。这笔收购看起来是一桩普通的 AI 基础设施并购,但如果你知道 Stainless 在 AI 开发工具链里的位置,就会明白 Anthropic 在做什么。

    Anthropic收购Stainless
    Anthropic 收购 Stainless 报道(来源:IT之家/新浪科技)

    Stainless 是做什么的

    简单来说,Stainless 做的事情很”基础设施”:它自动把 API 规范转换成 TypeScript、Python、Go、Java 等多语言的 SDK(软件开发工具包)。对于一个提供 API 的公司来说,维护多语言 SDK 是件极其枯燥且容易出错的事,Stainless 把这个流程自动化了。

    更有价值的是,当 API 发生变化时,Stainless 能自动更新对应代码。这意味着依赖外部接口的开发团队可以大幅降低维护成本,加快集成速度。在 AI 时代,几乎所有公司都在对外提供 API,这个能力的战略价值被成倍放大。

    Stainless 成立于2022年,创始人 Alex Rattray。在被收购前,它的客户包括 OpenAI、谷歌、Cloudflare 等数百家公司。可以说,整个 AI 行业的开发者工具链里,都有 Stainless 的影子。

    收购后的”切断”操作

    Anthropic 完成收购后的第一个动作,是把 Stainless 的全部托管产品关停。也就是说,OpenAI、谷歌这些曾经的客户,没法继续用 Stainless 的托管服务了。他们要么自己维护已生成的代码库,要么去找替代方案。

    现有客户虽然保留了已生成代码库的专属所有权,可以继续自行修改和扩展,但后续无法获得 Stainless 官方的更新和支持。这个操作本质上是在”锁喉”——把一项对 AI 智能体开发尤为关键的连接层能力,从开放市场收回到 Anthropic 体系内部。

    对于 OpenAI 和谷歌来说,这不是小事。它们的开发者生态高度依赖流畅的多语言 SDK 支持,突然失去 Stainless 的托管服务,要么投入资源自建类似能力,要么找其他第三方工具——但市面上能替代 Stainless 的产品并不多。

    为什么是现在

    把时间线拉长来看,这笔收购和同一周 Andrej Karpathy 加入 Anthropic,以及 Anthropic 洽谈至少300亿美元新一轮融资(估值可能超过9000亿美元),是同一个战略的不同落子。

    Anthropic 在做的,是一件微软和谷歌都做过的事:控制开发者工具链。当你用我的工具构建应用,你的产品就天然绑定了我的生态。AI 时代的”开发者工具链”战争,实际上比模型能力竞赛更决定长期格局。

    Stainless 创始人 Alex Rattray 表示,加入 Anthropic 是自然决定,团队能在”更早认可这项技术价值的公司”体系内继续推进工作。这句话的潜台词是:OpenAI 和谷歌并没有真正理解 Stainless 的战略价值。

    同期还有一个细节:Claude Code 的快速模式默认模型从 Opus 4.6 切换到 Opus 4.7,代码迭代速度提升2.5倍。Anthropic 在企业版推出 Managed Agents 自托管沙箱,Agent 可在私有网络运行而无需暴露公网端口。这些动作和收购 Stainless 放在一起,是一个完整的”企业 AI 开发平台”拼图。


    对行业的影响

    短期来看,OpenAI 和谷歌需要快速找到 Stainless 的替代方案。中长期来看,这笔收购可能会被监管机构关注——如果 Anthropic 在 AI 开发者工具链上的份额过大,会不会构成新的”垄断”争议?

    更深层的问题是:当 AI 实验室从”提供模型”向上游的”开发者工具链”延伸,行业会不会出现新的割裂?如果每家实验室都推自己的 SDK 工具,开发者最终要在多个生态之间做选择,这对整个行业的创新效率未必是好事。

    Anthropic 这笔2.8亿欧元的收购,买的不只是 Stainless 的技术团队,更是 AI 开发工具链的战略咽喉。这个信号,值得所有在做 AI 基础设施的人认真想想。

    📎 原文来源:新浪科技 · IT之家报道