标签: AI技术

  • Google I/O 2026:搜索框正在消失,AI代理替你做决定

    谷歌的核心属性是什么?过去二十年里,答案一直是”搜索”。你打开浏览器,在搜索框里输入问题,谷歌返回十个蓝色链接。

    但这个模式正在发生根本性的变化。Google I/O 2026展示的愿景是:AI代理会主动完成搜索,甚至无需你触发、参与或知情。

    在谷歌构想的搜索场景中,大量搜索行为不再由用户主动发起。这也引发了一个核心疑问:在AI主导搜索的新形态下,谷歌还能被称为”搜索引擎”吗?

    Sundar Pichai 的赌注

    The Verge的主编Nilay Patel前往Google I/O 2026现场,采访了谷歌CEO Sundar Pichai。两人的对话围绕几个核心方向展开:搜索功能的变革方向、谷歌在AI生态中的定位信心来源、以及这些变化对互联网未来的影响。

    Pichai的赌注很大:他认为谷歌在AI基础设施、模型能力和用户数据上的积累,使其在”后搜索时代”仍然拥有不可替代的位置。但外界的疑问是:如果AI直接给出答案,用户不再点击链接,谷歌的广告商业模式还能维持吗?

    Sundar Pichai 在 Google I/O 2026
    Sundar Pichai 在 Google I/O 2026 | The Verge

    AI代理购物车的野心

    谷歌在I/O上展示的”通用AI购物车”概念,可能是最值得关注的发布之一。这个AI代理不只是帮你搜索商品,它会追踪价格、提供购买建议、寻找折扣,甚至在合适的时候替你下单。

    这听起来像科幻小说,但谷歌的Demo显示它已经在有限场景下运行了。问题是:用户愿意把购买决策权交给AI吗?这是一个信任问题,不只是技术问题。

    互联网还有未来吗?

    这场变革背后有一个更深层的问题:如果AI代理吞噬了搜索流量,那些依赖搜索流量的网站(媒体、博客、电商平台)还能存活吗?互联网的内容生态是靠”人类点击链接”来维持的,如果点击消失了,内容创作者的收入从哪来?

    • 媒体行业已经在裁员和转型中挣扎
    • 如果AI摘要取代了点击,广告收入将大幅缩水
    • 内容创作者需要新的变现模式,而不是依赖搜索流量

    本周其他值得关注的动态

    除了Google I/O,本周AI行业还有几件事值得记一笔:

    Spotify推出AI功能,可以为每个用户生成专属的每日播客——由AI根据用户的收听历史自动制作。这标志着个性化内容生成正在从文字走向音频。

    YouTube Shorts的AI混剪功能:谷歌让用户可以拿别人的Shorts视频用AI进行混剪。这引发了版权和创作者权益的新一轮争论。

    SpaceX启动IPO,马斯克被列为风险因素——招股书里明确写了:如果马斯克分心过多,或者卷入政治争议,公司业务可能受到不利影响。这大概是IPO招股书里最诚实的风险披露了。

    搜索不会消失,但会变形

    把Google I/O的发布放在一起看,一个清晰的信号是:搜索不会消失,但它会从”你主动提问”变成”AI主动帮你”。这个变化对普通用户来说可能更方便,对依赖搜索流量的整个互联网内容生态来说,却是一个结构性挑战。

    谷歌显然知道这个问题。Pichai在采访中被问到”互联网是否还有未来”时,他的回答是:内容生态会适应,就像过去每一次技术变革一样。但这一次,适应的速度可能比任何人预期的都要快。

  • AI真的在抢走白领工作吗?数据说不

    你肯定也听过这种说法:AI正在吞噬白领工作,软件开发、金融分析、科技公司文案,通通不保。Coinbase、Meta、思科最近一波裁员,更让这种焦虑发酵到了新高度。

    但在你递交辞职信去学水管工之前,值得看看数据到底在说什么。

    简短的答案:目前还没有。尽管到处都是”就业末日”的警告,但几乎没有证据表明AI已经对美国劳动力市场产生了大规模影响。

    失业率数据打脸恐慌论

    美国劳工统计局(BLS)的数据清清楚楚:那些被认为”最容易被AI影响”的职业,失业率反而比受AI影响较小的职业更低。而且,没有任何迹象显示大量劳动者正从”危险职业”涌向”安全职业”(比如体力劳动)。

    前BLS局长埃里卡·麦肯塔弗(Erika McEntarfer)说得很直白:”迄今为止所有可用证据都表明,AI对当前劳动力市场状况的影响目前可能很小。我们从历史中知道,创新需要时间才能渗透到行业变化和职业变化中。AI不太可能在首先改变企业之前就改变劳动力市场。”

    AI与就业市场关系示意图
    MIT Technology Review 配图 | Stephanie Arnett

    年轻人确实在受苦,但原因很复杂

    公平地说,美国就业市场现在对很多人来说都很糟糕,尤其是年轻求职者。最近大学毕业生的失业率约为5.6%,远高于全体工人的失业率水平,这个数字是疫情以来、2008年经济衰退以来都没见过的。

    有迹象表明AI正在加剧22至25岁、寻求软件开发等受AI影响较大职业的年轻人的痛苦。但把这些职业的困境全算在AI头上,目前还缺乏足够证据。

    • AI应该为就业困境承担多少责任?不确定
    • 受AI影响职业中入门级工作的减少,是即将到来的其他职业的预兆,还是仅仅是”低解雇、低招聘”劳动力市场的孤立症状?也不知道

    斯坦福的研究发现了一个关键细节

    斯坦福数字经济实验室的研究人员分析了950个职业,按”AI暴露度”分为五档。他们用了ADP的庞大数据集(比BLS的数据大得多),发现了一个有意思的现象:

    在ChatGPT首次公开发布的2022年底之后,受AI暴露度最高的职业(如软件开发和客户服务)中,22至25岁的员工人数开始下降。到2025年,受AI暴露的职业的入门级工作岗位下降了16%。

    但研究同时发现了一个经常被忽略的关键细节:影响取决于AI的使用方式。那些任务可以”最少人类参与”自动化的工作(比如入门级编码),就业人数减少了;而在AI主要用于增强人类工作的工作岗位,入门级工人的就业人数增长反而快于平均水平。

    “编码知识” vs “隐性知识”

    这项研究提出了一个有趣的解释:入门级工作更多依赖于人们通过教育获得的”编码知识”——这类知识容易被AI模仿。而年长工人有更多的”隐性知识”,即基于经验的那种直觉和判断力,这类智慧目前还很难被AI取代。

    这意味着”边赚边学”的传统职业模式,至少在某些职业里,可能真的被打破了。年轻毕业生的技能可以与AI匹敌,所以他们找不到工作了。


    这次会不一样吗?

    对AI取代工人潜力的焦虑并不是什么新鲜事。2013年就有大量报道描述包括AI在内的一系列新数字技术如何开始威胁白领工作。2016年底,奥巴马总统任期的最后几天,他发布了一份由顶级经济和科学顾问撰写的报告,警告AI正在威胁工人。

    当时AI先驱杰弗里·辛顿说:”人们应该停止培训放射科医生”,因为该职业很快就会被AI取代。当然,这个预测没有成真。AI确实已经成为筛查放射学图像的工具,但放射科医生的数量比以往任何时候都多。

    事实证明,人类放射科医生执行大量有价值的任务,包括解释结果和与患者互动,这些任务目前还无法用AI完成。

    也许这次会不同。AI确实已经获得了做类人任务的难以想象的能力。但之前的AI就业焦虑有一个先见之明的教训:我们真正的关注点应该少放在反乌托邦的恐惧上,更多放在可能影响到数百万人的工作场所的真正过渡上。

    我们需要更好的数据

    哈佛大学经济学教授大卫·戴明说:”我们基本上是在盲目飞行。”目前的数据收集工具并不能充分解释AI如何影响庞大而多样的美国劳动力市场。

    斯坦福数字经济实验室即将启动一个定期更新的项目,提供关于AI如何改变经济的数据。在花费数千亿美元推出AI技术的时候,我们在了解这种过渡上投入的资金甚至不到1%。

  • Cursor Composer 2.5 发布:不换底座、1/10成本追平Claude Opus 4.7

    过去几个月,AI 编程工具的用户有个普遍感受:Claude Code 用起来越来越顺手,Cursor 反而有点掉队。这个局面在5月19日变了——Cursor 发布了 Composer 2.5,直接把基准测试成绩拉到了和 Claude Opus 4.7 同一个水平线。

    有意思的是,这次 Cursor 没有换底座模型,仍然用的是月之暗面开源的 Kimi K2.5 权重,只是把85%的计算量砸进了后训练。换句话说,同样的底座,靠训练手法把成绩硬拉了上去。

    Composer 2.5 在 SWE-Bench Multilingual 拿到79.8%,和 Claude Opus 4.7 的80.5% 只差0.7个百分点。成本却只有后者的约1/10。

    价格才是真正的杀手锏

    具体定价:输入0.5美元/百万token,输出2.5美元/百万token。作为对比,Claude Opus 4.7 的输入定价大约在20美元/百万token量级。差距是数量级的。

    Cursor 为什么要走这条路?直接原因很现实:Cursor 调用 Anthropic 的模型需要付推理费,成本结构是跟着 Anthropic 走的,它没法把 Claude Code 的价格打下来。自研模型是唯一能打出差异化的路径。


    长任务能力是这次的重点

    AI 编程工具的一个核心痛点是:短任务表现都不错,但任务一拉长(多文件修改、跨步骤依赖、几十轮工具调用),模型就容易失忆或者犯低级错误。

    Composer 2.5 针对这个场景做了专项优化。训练方法里有个细节值得说:「功能删除」训练——从可运行代码库里随机删掉某项功能,让模型重新实现并通过测试验证。这种方式生成的训练数据质量远高于人工标注,因为它自带可验证的正确性信号。

    另一个训练技巧是带文本反馈的强化学习。不是等整个任务结束才给一个奖励信号(那样太稀疏,模型很难学到东西),而是在模型执行出错的位置直接插入局部提示——比如工具调用失败时,提示可用工具列表——让模型从错误位置开始就能得到针对性反馈。

    透明性这块,这次学乖了

    上次发布 Composer 2 的时候,Cursor 没有披露模型底座来自 Kimi K2.5,结果被社区扒出来后在 Hacker News 上引发了一轮讨论。这次 Composer 2.5 的发布公告里直接写明了底座来源,算是吃一堑长一智。

    目前 Cursor 内部35%的合并 PR 已经由自主 Agent 创建。这个数据背后意思是:模型不只是给人提供代码建议,而是能独立跑完一个功能分支的开发-测试-提 PR 全流程。Composer 2.5 发布首周,Cursor 用户的模型调用量就翻了一倍。


    下一步是什么

    Cursor 已经宣布正在和 SpaceX AI 合作训练下一代模型,使用 Colossus 2 的百万 H100 等效算力,总计算量会是 Composer 2.5 的10倍。按这个节奏,下一代模型的基准测试成绩还会再往上走一截。

    顺带一提,马斯克在 X 上转了 Composer 2.5 的发布推文,确认了 Colossus 2 参与了部分训练。这条转发本身比任何公关稿都更有分量——意味着这家公司的训练基础设施已经得到了业界最挑剔的那批人的认可。

  • Tesla AI5芯片完成流片:5倍算力、美国双厂代工,剑指Optimus

    马斯克4月15日在X上丢了一句话:AI5已经tape-out了。这条推文在科技圈炸出的水花,比大多数人意识到的要大得多。

    tape-out(流片)在芯片行业里是个分水岭——设计图纸彻底定稿,交给代工厂开始生产,之后不能再改。特斯拉把AI5的设计同时发给了两家工厂:台积电亚利桑那州厂,和三星得克萨斯州泰勒市厂。全部在美国本土生产,这本身就是个信号。

    AI5单芯片算力大约是AI4的8倍,内存容量是9倍,带宽是5倍。双AI5配置的性能对标英伟达Blackwell,但成本不到后者的10%,功耗只有1/3。

    为什么现在需要AI5?

    马斯克自己的说法是:现有AI4已经足够让FSD达到比人类高得多的安全水平。那AI5给谁用?

    答案是Optimus。人形机器人要在真实世界里自主行动,需要处理非结构化环境感知、物体操控、平衡控制、语音交互一堆任务,而且不能靠云端连命——断网就得自己扛。AI5就是为这个场景设计的,足够强的端侧推理能力,功耗还要压得住。

    另一个用途是训练集群。FSD v15的模型参数规模会比现有版本大10倍,Optimus的模型也在同步膨胀,AI5会装进服务器主板(每板5-12颗),成为特斯拉自研训练基础设施的核心。


    量产时间线与更大的棋局

    工程样片预计2026年晚些时候出来,先给Optimus早期测试用。大规模量产瞄准2027年,行业预测2027年中到下半年能落到消费级产品里。

    但特斯拉的节奏比这更快——AI6已经在路上,确定由三星独家代工,预计2026年12月完成流片,2027年量产,单颗算力约是AI5的2倍。Dojo 3超算芯片也在同步研发。特斯拉已经把芯片研发周期压缩到约9个月,比英伟达和AMD的约1年更新节奏要快。

    顺带一提,特斯拉正在得州奥斯汀建自己的芯片制造厂「Terafab」,以后的AI5及后续芯片会逐渐转到自家园子里生产。2026年特斯拉为非汽车项目(Terafab、Cybercab、Optimus)拨了约200亿美元资本支出。

  • 英伟达不再是唯一选择,AI芯片的牌桌正在重新洗牌

    英伟达不再是唯一选择,AI芯片的牌桌正在重新洗牌

    过去几年里,只要你聊到AI算力,所有人的第一反应都是英伟达。这家公司确实走到了一个前无古人的位置——数据中心AI芯片市场占有率一度超过90%,业绩增速让华尔街分析师不停地改预测模型。

    英伟达的巅峰与隐忧

    2026财年英伟达全年营收2159亿美元,同比增长65%。数字很漂亮,但细心的人已经注意到,几个大客户正在悄悄调整采购策略。

  • AI智能体火了:从「聊两句」到「真的帮你干活」

    AI智能体火了:从「聊两句」到「真的帮你干活」

    如果你最近试过让AI帮你订外卖、整理文献、生成科研报告,你可能已经注意到一个变化:AI不再只是坐着和你聊天,它开始动手了。这个变化背后有一个关键词——智能体(Agent)。2026年,这个概念从实验室走到了普通用户的手机屏幕上。

    AI智能体应用场景
    AI智能体正在融入科研、电商、金融等真实工作场景(图源:新华网)

    智能体到底是什么?

    国家网信办等部门2026年5月印发的文件里给了个官方定义:智能体是具备自主感知、记忆、决策、交互与执行能力的智能系统。说人话就是——以前的AI是你问它答,现在的智能体是你告诉它一个目标,它会自己拆解任务、调用工具、执行步骤,最后把结果交给你。

    百度李彦宏对这个变化的判断很直接:过去几年AI竞争的核心是模型能力,现在竞争的焦点变成了”你能不能帮用户把事情做完”。这个判断背后有一个新的度量指标——日活智能体数(DAA),对应移动互联网时代的日活用户数(DAU)。

    衡量一个AI平台和生态是否繁荣,更应该看DAA——有多少智能体在给用户干活并交付结果。这才是AI从聊天工具向数字员工转变的真正标志。

    科研场景:从翻文献到一键出报告

    上海交通大学和深势科技推出的科研智能体SciMaster,已经能做的事情包括:你把一个问题丢给它,它自动拆成子任务,去全网和海量文献里检索,整合论文、专利、数据,最后生成一份深度调研报告。在药物研发和新材料设计领域,这类工具正在改变工作流。

    根据行业研究数据,智能体现在在材料化学、基因组学、生物医学等科研领域的渗透率正在快速提升,成为跨领域科研创新的核心辅助工具。

    电商场景:一句话下单,还会”劝退”你

    2026年5月,淘宝闪购和千问智能体完成深度打通,覆盖全国300多个城市和3000多个区县。你可以直接对智能体说”帮我点两杯奶茶,少糖,加珍珠”,它会自动识别意图、匹配商品、完成下单。

    有个有趣的细节:智能体在帮你选品时还会做出”劝退”动作。有记者测试时试图让智能体买”量子水杯”,结果被千问科普了一大通,直接劝退。这种机制其实是在用AI帮用户做理性决策,而不仅仅是被动执行指令。


    金融与教育:效率提升是实打实的

    券商研究员以前做行业研究,翻研报、读财报、搜新闻,2到3天才能出一份初稿。现在把研究主题交给智能体,它自动检索、精读财报、提炼观点,2到3小时就能输出结构化分析草稿。教育领域也是类似,文献综述这类耗时费力的活,现在智能体可以在一两天内完成过去需要几周的文献梳理工作。

    当然,智能体还不是完美的。幻觉问题、执行出错、决策跑偏,这些都是行业和用户正在共同面对的问题。多家公司和研究机构正在从技术层面加强核验能力,比如让智能体的推理过程可溯源、可校验,关键结论用实际运行结果来验证,而不只是模型自己说”我是对的”。

    政策层面也在跟上。2026年5月出台的《智能体规范应用与创新发展实施意见》,给这个正在快速爆发的行业划定了安全底线。智能体这个东西,本质上是AI从”会说话”到”能干活”的跨越,这个过程才刚刚开始。

  • ChatGPT语音模式被曝用旧模型,付费用户骂了半年才知道





    ChatGPT语音模式被曝用旧模型,付费用户骂了半年才知道

    ChatGPT语音模式被曝用旧模型,付费用户骂了半年才知道

    Andrej Karpathy前几天在推特上扔了个炸弹:ChatGPT的语音模式,跑的是GPT-4o时代的模型,知识截止日期停在2024年4月。也就是说,过去一年AI领域发生的大部分事情,你的语音助手是一概不知的。

    Simon Willison把这个发现整理成了博客文章,然后整个开发者社区就炸了。你每月付200美元买ChatGPT Pro,期待的是最前沿的模型能力——结果你的语音助手连2024年4月之后的世界都不知道。这不是”略有差距”,是13个月的技术代差。

    Karpathy的观察很直接:”ChatGPT语音使用的模型知识截止日期为2024年4月,这基本上是在过去一年AI领域发生的一切之前。”如果你付钱买的是”最新AI能力”,语音模式却给你一个2024年的模型,这个gap很难用”技术限制”完全解释。

    为什么OpenAI不直接用最新模型跑语音

    OpenAI还没有正式回应这个争议,但技术上的约束是真实的。实时语音需要很低的延迟——你说话,AI要几乎同时回应,不能有长时间的”思考”过程。当前的前沿模型(GPT-5.5级别)在做低延迟实时推理的时候,成本和技术难度都比上一代模型高得多。

    这个解释有一定道理,但问题是:OpenAI有没有把这件事清楚地告诉付费用户?如果你每月付200美元买Pro订阅,你大概会默认所有模态(文字、图片、语音、代码)都使用同等水平的模型。如果语音模式用的是上一代模型,这个信息不对称持续了半年多,那就是产品透明度的问题,而不只是技术限制了。

    竞争对手没睡觉

    这个争议最大的影响可能不是OpenAI的技术路线,而是竞争对手的行动。谷歌的Gemini Live语音模式,用的是Gemini 3.5 Flash——这是谷歌当前最新一代的模型。也就是说,如果你用Gemini Advanced的语音模式,你拿到的是和文字界面同等水平的模型能力。

    这个对比对用户来说是很直观的:同样说一句话,Gemini Live能理解2025年的事件,ChatGPT Voice不知道。OpenAI在模型能力上领先了三年,但在产品透明度上给了竞争对手一个可乘之机。


    这不是第一次了

    回顾一下OpenAI过去一年的产品发布节奏,类似的情况其实出现过好几次。2025年底推出的”高级语音模式”(Advanced Voice Mode)本来被期待能缩小这个差距,但开发者的反馈是:并没有。模型能力确实比GPT-4o时代强了一些,但和文字界面的GPT-5.5比,差距仍然是显著的。

    更深层的问题是:当AI公司的产品有文字、语音、图片、代码等多个模态的时候,用户有没有权利期待”同等水平的模型能力”?还是说,每个模态都是独立的产品,用户需要分别判断值不值得付钱?这个问题没有标准答案,但OpenAI作为行业领头羊,在透明度上确实可以做得更好。

    普通用户该怎么看这件事

    如果你在用ChatGPT的语音模式,而且发现它经常”不知道最近发生的事情”——现在你知道原因了。不是你用得不对,是它确实不知道。如果你在乎这个,可以试试Gemini Live,或者干脆回到文字界面。

    对行业来说,这个事件提醒了一件被忽略的事:AI竞赛不只是”谁的模型分数更高”,也是”谁把产品透明度做得更好”。用户愿意为AI付钱,但他们需要知道自己在为什么付钱。



  • KPMG把Claude塞进27.6万员工的电脑里,四大会计师事务所的AI赌注





    KPMG把Claude塞进27.6万员工的电脑里,四大会计师事务所的AI赌注

    KPMG把Claude塞进27.6万员工的电脑里,四大会计师事务所的AI赌注

    2026年5月19日,毕马威(KPMG)和Anthropic quietly宣布了一件事——把Claude部署给全球138个国家、27.6万名员工。这不是”大家可以试试AI”的那种试点,而是直接把Anthropic的前沿模型嵌进了毕马威给客户交付工作的核心平台里。

    有意思的地方在于,这次部署不是简单地给员工开个AI访问权限。Claude Cowork和Claude托管代理是直接集成到毕马威的”数字网关”(Digital Gateway)里的——这个网关是毕马威专业人士用来对接客户、跑专有工具、管AI工作流的核心系统。换句话说,27.6万人不是在和一个聊天界面说话,而是在他们每天用的平台上直接构建AI代理工作流。

    毕马威全球董事长Bill Thomas说这套东西围绕”安全、信任和治理”,不是只追求速度。考虑到Anthropic是那家因为自主武器问题起诉过美国国防部、还发布了第一个公开AI安全框架的公司,这个说法在2026年听起来不算空话。

    从数周到数分钟:代理部署速度的革命

    毕马威和Anthropic说,以前要花好几周工程周期才能配置好、适配税务法变更的代理,现在在数字网关里1小时内就能生成。这个速度提升不是因为Claude变快了,而是因为集成方式是”原生”的——代理工作流直接在毕马威自己的客户交付平台里跑,不需要额外搭建基础设施。

    初期覆盖的是税务和私募股权客户,之后会扩展到所有咨询服务。2026年9月之前,整套系统会在微软Azure上完成全量落地。网络安全是重点部署领域之一——毕马威和Anthropic的团队会用Claude来识别和修复重要客户系统的漏洞,这是Project Glasswing工作在毕马威分销渠道里的具体落地。

    为什么是Claude,不是GPT

    四大会计师事务所选Claude不是偶然。2026年初,德勤宣布把Claude部署给全球约47万名员工,那是当时最大的单一Claude企业部署。2026年5月14日,普华永道(PwC)跟着宣布全球联盟,把Claude Code和Cowork推给全球专业服务员工,光美国就有3万人正在接受认证。

    毕马威现在是第三家,但它的玩法有点不一样。德勤和普华永道更多是”让员工用Claude提升效率”,毕马威则是把Claude做成了给客户交付服务的”基础设施”——Claude不只是工具,而是变成了毕马威服务的一部分。这对Anthropic来说意味着什么?意味着27.6万名专业人士每人接触几十个客户,Claude的实际触达面可能是几百万企业用户。


    四大的AI竞赛,安永还撑得住吗

    德勤(47万)、普华永道(数十万)、毕马威(27.6万)——这三家到2026年9月都会把Claude标准化。剩下那家安永(EY)还没发布同等级别的公开公告。但压力是看得见的:当你的竞争对手都在用Claude给客户交付服务的时候,你很难跟客户解释”我们还在评估”。行业里有人猜,安永可能在2026年第三季度会有动作。

    这个局面的受益者显然是Anthropic。三大家合计约110万名专业人士,他们服务的对象是财富500强、全球2000强和大多数主要政府。当三大四大都把Claude作为标准AI模型的时候,他们实际上是在给每一个客户组织做”隐性推荐”——Claude是安全的、有治理的、企业级的choice。这个分销渠道,任何直接营销都复制不出来。

    一个不怎么被提起的数字

    毕马威在这个联盟里还有一个特殊身份:Anthropic把毕马威列为私募股权领域的”首选咨询方”。这意味着,如果一家被私募股权公司控股的企业想要部署Claude,Anthropic会推荐毕马威来干这个活。这不是小事——私募股权公司控制着全球大量的企业资产,这笔渠道的价值,可能比27.6万个Claude授权本身的收入还要大。



  • OpenAI挖来前F1职业车手当CMO,光找人就花了半年

    OpenAI最近任命Colin Fleming为首席营销官(CMO),这事儿本身不稀奇,稀奇的是:光是找一个合适的CMO,他们就花了整整半年时间。

    Colin Fleming LinkedIn
    Colin Fleming 的 LinkedIn 页面,他自称早期曾效力红牛车队

    一个CMO岗位,为什么找了半年?

    纽约时报挖出来的八卦显示,OpenAI之前盯上的CMO候选人,名头一个比一个响:优步总裁Jill Hazelbaker、苹果前设计总监Jony Ive的公关负责人Sarah O’Brien、Square前公关高管Aaron Zamost……每一个拎出来,都够独当一面。

    结果最后被选中的,是Colin Fleming——一个早期效力过红牛F1车队、后来在Salesforce干了13年、最近在ServiceNow当CMO的人。

    “在我职业生涯早期,我曾效力于红牛车队,参加过F1级别的职业比赛。那种速度、精准度和压力,塑造了我今天的领导方式:果断、负责,并且在高风险的情况下也能游刃有余地大规模运作。”

    他的核心竞争力:把复杂技术翻译成人话

    Colin最早在eSoles(一家为专业运动提供鞋垫定制服务的公司)做了4年营销主管,那算是他从赛车手转型到营销的第一站。

    真正让他出圈的,是在Salesforce的那13年。当时大多数企业还在用本地服务器和买断式软件,”CRM”这种词对很多人来说就像天书。Colin和团队做的事情,恰恰是把这些复杂技术翻译成市场能听懂的语言——不再只讲产品功能,而是讲”未来工作方式””企业数字化””云时代”这些更大众化的叙事。

    Salesforce后来能从一家卖CRM的软件公司,变成云计算时代的行业代表,这一步很关键。而Colin也在这个过程中,从产品营销总监一路升到全球营销执行副总裁。


    为什么是现在?OpenAI的营销到底缺什么?

    严格来说,OpenAI的CMO岗位历史短得有点离谱。因为在2024年之前,OpenAI更像一家研究实验室,品牌、传播、市场这些职能长期是弱化的。

    最早负责这块的,是2021年从苹果跳到OpenAI的Hannah Wong,但她当时的头衔是首任CCO(首席传播官),管的也是媒体、公关、政策沟通,严格说那是”传播”,而非传统意义上的”市场营销”。

    OpenAI历史上正式挂过CMO头衔的,实际上只有一个人:2024年才上任的Kate Rouch(她之前在Meta干了十余年,也是Coinbase的首任CMO)。今年4月,Kate Rouch发声明称因需要治疗癌症而卸任。过渡期内,大股东Thrive Capital的营销合伙人Kelly Sims临时顶班。

    OpenAI对营销的组织建设,慢了半拍。当一家公司估值逼近万亿美元、IPO进入倒计时,营销和公关两条线却同时无主,这事怎么看都有点奇怪。

    Colin接的是一个”高风险挑战”

    为什么其他候选人都不接,偏偏Colin接了?他在LinkedIn上形容离开ServiceNow的决定时用了一个词:”gut-wrenching”(令人心碎)。但紧接着他又补了一句:”如果不去,我会后悔一辈子。”

    这话听起来很像车手的思维方式:明知道风险巨大,但只要那是时代拐点、是足够刺激的挑战,他还是会踩下油门。

    他接手之后的核心任务也很明确:ChatGPT已经家喻户晓,下一步是怎么从Anthropic手里抢企业端市场。Colin最擅长的,恰恰是把新技术翻译成市场愿意理解的语言——这个能力,放在当下的OpenAI,就是最缺的那块拼图。


    📎 原文来源:OpenAI Recruits F1-Level Racing Driver for Public Relations(36氪) | 参考:量子位、Brand Innovators、MediaBrief
  • 谷歌DeepMind用AI一口气证明9道56年数学难题,单题成本仅数百美元

    谷歌DeepMind最近搞了个大动作——AlphaProof Nexus,一个由Gemini驱动的形式化证明框架,一口气解决了9道悬而未决的埃尔德什(Erdős)数学开放问题,其中最老的已经被卡了56年。与此同时,它还顺手证明了在线整数序列百科(OEIS)里44个未解猜想。

    Google DeepMind AlphaProof Nexus
    AlphaProof Nexus 由 Gemini 驱动,结合 Lean 形式化验证

    不是”AI猜答案”,而是”机器可验证的证明”

    这次和以前那些”AI做数学题”的新闻不太一样。AlphaProof Nexus 的核心是把大语言模型(LLM)和 Lean 形式化验证工具绑在一起——LLM负责生成证明思路,Lean 负责严格校验每一步逻辑是否真的成立。

    这样做的好处是:证明不是”看起来对”,而是”机器严格验证过对”。传统数学界对AI生成证明最大的质疑就是”你咋知道它没在胡说”,Lean 验证正好堵住了这个漏洞。

    关键突破:单次推理成本仅数百美元,论文与代码已在 GitHub 开源(arXiv:2605.22763,CC BY-NC-ND 4.0 协议)。

    哪些问题被解决了?

    这次解决的9道 Erdős 问题横跨组合数学和图论,其中两个最引人注目的问题已经被卡了56年。完整列表在论文附录里,这里说几个有意思的:

    • Erdős #12:关于整数序列中等差数列密度的猜想,困扰学界超过半个世纪
    • Erdős #125:30年无人给出完整证明的图论问题
    • Erdős #846:34年悬而未决的组合数学问题
    • 其余6道问题同样来自 Erdős 遗留的353道开放问题清单,这次共解决了9道
    • 额外证明了 OEIS 百科中44个序列猜想,覆盖组合学、优化、图论、代数几何、量子光学等领域

    和 OpenAI 的那次突破有什么区别?

    就在前不久,OpenAI 宣布他们的 AI 推翻了一个有80年历史的 Erdős 猜想。两边都在做”AI+数学证明”,但路径不太一样:

    OpenAI 那次更多依赖强化学习驱动的推理,而 DeepMind 这次走的是”LLM生成 + Lean 形式化验证”的路线,两种路径各有优劣。形式化验证的好处是证明可以被机器完整检查,数学界更容易接受。

    目前 AlphaProof Nexus 还不能解决那些需要全新数学构造的问题——它强在”验证了,不是”从无到有发明了新数学”。这个界限,也是整个领域下一步要攻克的。

    这个方向意味着什么?

    以前数学家要验证一篇论文的证明是否正确,往往要花数周甚至数月。如果 AI 能快速生成”机器可验证”的证明草稿,数学研究的速度会被整个提起来。

    当然,现在说”AI 取代数学家”还早得很。目前系统能处理的是”已经被明确表述出来的数学问题”,那些需要人类直觉去”发现正确的问题”的部分,AI 还差得很远。但作为一个”超级研究助手”,它已经很能打了。


    📎 原文来源:AlphaProof Nexus 论文(arXiv:2605.22763) | 参考:agentupdate.ai、IT之家、知乎相关讨论