博客

  • Thinking Machines Lab发布实时交互模型:Mira Murati跳出OpenAI后的第一枪

    Mira Murati沉默一年多后,交出了第一张答卷

    前OpenAI首席技术官Mira Murati离开老东家快两年了。她创办的Thinking Machines Lab(TML)在2026年5月11日终于放出了第一个研究预览模型——TML-Interaction-Small。这不是又一个”我们有大模型要发布”的常规操作,而是一个直接挑战现有AI交互范式的新尝试。

    Murati这个人的履历不需要太多介绍:OpenAI的GPT系列和Claude的竞速时代,她坐在CTO的位置上。2023年Altman被董事会开除那几天,她还短暂当过OpenAI的临时CEO。现在她带着一批OpenAI老部下另起炉灶,拿了两轮总共20多亿美元的融资,估值一度冲到500亿美元。

    现有AI都说自己”实时”,但你说话的时候它还在等你停;TML想做的是你随时可以插话,它随时可以接话。

    200毫秒的”微轮次”设计

    目前的实时语音模型——包括OpenAI的GPT-Realtime和Google的Gemini Live——都有一个共同的设计妥协:它们依赖外挂的语音活动检测组件来判断”用户说完了没”,然后把完整输入传给模型,模型生成回复时感知会冻结。你说话的时候它听,它说话的时候你只能等。

    TML的解法是”时间对齐微轮次”:以200毫秒为粒度,同时处理200ms输入、生成200ms输出,输入token流和输出token流在同一个时钟周期里交错运行。效果是你可以随时打断它,它也可以根据视觉信号无提示地响应——比如你指了指屏幕上的某个东西,它不需要你先说”看这个”就能接话。

    Thinking Machines Lab交互模型示意图
    TML交互模型的工作机制示意图(来源:Unite.AI)

    2760亿参数,但只激活120亿

    首个公开亮相的模型TML-Interaction-Small采用MoE(混合专家)架构,总参数规模2760亿(276B),但每次推理只激活120亿(12B)参数。这个设计的目的很明确:在保持模型”脑子够用”的同时,把延迟压到200ms以内。

    另一个有意思的设计是前后台拆分。前台(交互模型)负责低延迟实时交互,没有重型独立编码器:音频通过轻量嵌入层输入梅尔频谱特征,图像拆成40×40的patch,所有组件从零开始和Transformer共同训练。后台是独立的异步运行模型,负责深度推理、工具调用、网页浏览这些高负载任务,不占用前台交互的计算资源。


    跟GPT-Realtime和Gemini Live比怎么样

    TML自己跑了两个测试基准:FD-bench V1(轮次切换延迟)和FD-bench V1.5(交互质量,覆盖用户打断、反馈、背景语音等场景)。数据是他们自家报的,第三方还没验证,但数字差距确实不小:

    • 轮次切换延迟:TML-Interaction-Small 0.40秒 vs GPT-Realtime-2.0(最小思考模式)1.18秒 vs Gemini 3.1 Flash Live(高思考模式)0.57秒
    • 交互质量得分:TML 77.8 vs GPT-Realtime-2.0 46.8 vs Gemini 3.1 Flash Live 45.5

    这个分数意味着什么,现在下结论还太早。FD-bench V1.5是TML自己推出的视觉交互测试集,目前还没有独立的baseline可以对照。而且200ms的延迟在实际网络环境下能不能稳住,也是个大问号。

    钱和人的问题

    TML的融资故事挺戏剧性的。2025年7月完成20亿美元种子轮,估值120亿美元,是当时有记录以来最大规模的种子轮。领投方是Andreessen Horowitz,参投方阵容豪华:英伟达、AMD、思科、Accel、ServiceNow、Jane Street都在列。但2025年底他们想再融一轮把估值推到500亿美元,没成。

    人也在流失。2026年1月,联合创始人Barret Zoph和Luke Metz离职返回OpenAI,核心成员Andrew Tulloch被Meta超级智能实验室挖走。Meta累计从TML挖走了5名创始成员。Murati随后提拔PyTorch联合创始人Soumith Chintala担任公司CTO,算是一个信号:她需要更扎实的工程领袖来稳住局面。

    算力方面,2026年3月跟英伟达达成了合作,英伟达将进行未披露金额的投资,并部署至少1GW的下一代Vera Rubin计算系统。同时也扩大了与谷歌云的合作,使用英伟达GB300硬件训练前沿模型。

    接下来会怎样

    目前模型没有向企业或公众开放。TML表示未来几个月会向选定合作伙伴开放有限研究预览,2026年晚些时候会扩大发布范围。他们还计划推出更大规模的交互模型——当前的276B版本是能满足延迟要求的最小变体,更大的版本在效果上会更好,但延迟能不能压住是未知数。

    值得观察的问题有几个:长会话下的稳定性、弱网环境下的表现、实时安全拒答机制怎么设计。TML这次把”交互范式”这个根本问题拎出来打,勇气是有的,但能不能落地进生产环境,还需要等模型真正开放之后才知道。

  • MIT Technology Review 2026年十大AI趋势:从人形数据到反抗浪潮

    一份不按常理出牌的AI清单

    MIT Technology Review在2026年4月21日首次推出「10 Things That Matter in AI Right Now」年度清单,这跟他们做了二十多年的「10大突破技术」不是一个路数。往年那是预测未来三五年什么技术可能改变世界,今年这份清单直接盯住当下正在发生、而且已经跑起来停不下来的十个AI趋势。

    评审团队是MIT TR的AI记者和编辑集体投票选出来的,标准只有一个:这件事现在正在改变什么,而不是它听起来有多酷。结果出炉之后我仔细看了,十个里面有四个跟「可信度」和「物理世界」有关——这个信号值得琢磨。

    AI最现实的威胁不是机器人造反,而是你分不清眼前看到的是真的还是算出来的。

    人形数据和世界模型:机器人终于要「活」了

    榜单第一个趋势是「人形数据」(Humanoid Data)。简单说,就是让机器人学人的动作,需要海量的人类行为视频——怎么拿鸡蛋不捏破、怎么折衣服、怎么在厨房里转身不撞到东西。现在的做法是两路并进:一路是在专门的训练中心里让工作人员重复执行任务,另一路是用远程操控让海外的真人「钻进机器人身体」操纵动作,同时录下示范视频。

    第四个趋势「世界模型」(World Models)跟这个一脉相承。现在的LLM很会「说」,但不太能「理解空间」。你问它一个球从桌上滚下去会怎样,它能描述,但它没有真正建模重力和摩擦力在物理世界里的运作方式。世界模型想解决的,就是这个根本的能力缺口。

    MIT的报道特别点名了Niantic(《Pokemon GO》开发商)旗下的AI分拆公司,正在用玩家多年累积的30亿张城市街景照片训练下一代世界模型。玩家当初是为了抓宝可梦而拍照,无意间成了史上规模最大的现实世界AI训练数据来源之一。这个叙事,比任何技术白皮书都来得生动。

    诈骗升级和武器化深伪:信任正在被掏空

    第三个趋势「升级版诈骗」和第六个趋势「武器化深伪」,在榜单里占了两个席位,说明MIT TR对这个问题的严重程度评估相当高。AI降低了诈骗的门槛,你不再需要懂技术才能制作逼真的钓鱼邮件、伪造语音通话、或者批量生成假账号。

    更棘手的是第六个趋势点名的两件事:Grok(马斯克旗下xAI的AI)被用来大量生成非自愿性图像,以及美国政府用AI生成内容进行政治宣传。深伪的威胁不只是让假的东西看起来像真的,而是让真的东西也开始被怀疑——当任何视频都可能是假的,人们对所有视觉证据的信任就会崩塌。


    多Agent协作和中国开源押注

    第七个趋势「智能体编排」(Agent Orchestration)说的是多个AI Agent协作执行复杂任务。第一代AI Agent能帮你浏览网页、写一段代码,但它们各自为政。下一步是让多个Agent分工合作:一个负责搜集资料、另一个负责分析、第三个负责起草报告、第四个负责执行发布——整套流程自动完成,人只需要在关键节点确认。

    第八个趋势「中国的开源押注」也很有意思。DeepSeek、Qwen(阿里巴巴)、GLM(智谱AI)——这些中国开源模型在关键基准测试上已经接近主流商用LLM,加上可免费部署、推理成本较低,让全球开发者纷纷在上面建构应用。MIT的核心观察是:越来越多美国与全球的应用,正在「默默」跑在中国AI的基础设施上——这个现象已悄悄发生,而且难以逆转。

    反抗浪潮已经来了

    第十个趋势「抵抗运动」被放进这份清单,本身就是一个信号。对AI的强力反抗正在全球范围内成形,而且已经开始取得具体的小胜利。这波反抗的来源异常多元:保守派和自由派都有、艺术家和工会都有、欧洲监管机构和美国地方政府都有。他们的诉求各异,但共同点是:AI的发展速度已经超过了社会准备好接受它的速度。

    具体的胜利案例包括多国对AI生成艺术的版权保护立法推进,以及影视、音乐、艺术等产业在合约中加入AI使用授权条款。在音乐平台端,多个平台已经开始对AI生成内容增加标记与调控机制。

  • 英伟达Lyra 2.0:一张照片生成90米3D世界,具身智能有”健身房”了

    4月16日,英伟达研究团队悄悄放了个大招:Lyra 2.0,一个能从单张照片生成大规模3D场景的系统。这东西的目标很明确——给具身智能(embodied AI)提供训练场,让机器人在虚拟世界里先练熟了,再到现实中干活。

    你只需要喂给它一张图片,它就能给你生成一个纵深90米的连贯3D环境。这个距离什么概念?差不多一个足球场的长度。而且相机一路走一路拍,回来的时候场景还是你刚才看到的那个,不会突然变形或者裂开。

    它解决了两个老大难问题

    以前的3D生成模型有两个通病,英伟达这次都给治了。

    第一个叫”空间遗忘”——相机绕着场景走一圈再回到原点,发现原来的地方已经不认识了,场景扭曲得像进了哈哈镜。Lyra 2.0的做法很直白:实时把每一帧的3D几何信息存下来,相机回到老地方的时候,直接调档案,保证看到的东西跟第一次看到的一样。

    第二个问题更麻烦,叫误差累积——生成的帧数越多,前面犯的错会一直往后传,到最后整个场景崩掉。Lyra 2.0在训练的时候故意把一些有缺陷的输出喂给模型,让它学会自己纠正自己。这个思路有点像让模型”打草稿→检查→修改”,而不是一条路走到黑。

    在图像质量、相机控制这两项核心指标上,Lyra 2.0干掉了GEN3C、Yume-1.5等6个同类型竞品。快速版本比基础版效率提升13倍。

    跟机器人仿真平台打通了

    这是Lyra 2.0最实用的地方。它跟英伟达自己的Isaac Sim(机器人仿真平台)无缝集成,生成的3D场景可以直接导出为网格模型,机器人就能在这个虚拟环境里训练算法。

    以前要训练一个具身智能模型,你得派人拿着激光雷达和相机去现实世界扫一大堆3D数据,费时费力还贵。现在Lyra 2.0能自动生成多样化的训练场景,机器人先在虚拟世界里把活干熟练了,再到现实里上路。

    目前它只支持静态场景生成,动态物体还没搞定。但光是静态场景这个突破,已经给自动驾驶、通用机器人的物理感知训练提供了不少帮助。

    为什么这事值得关注

    3D世界生成这个方向,本质上是给AI建”健身房”。大模型是靠海量文本数据喂出来的,具身智能要靠海量3D交互数据,而现实世界的数据采集成本太高了。

    英伟达这步棋很精明——它不跟你卷大模型,它给你造训练大模型需要的”场地”。你用不用它的GPU跑模型另说,但你要想训练具身智能,它的仿真工具链几乎是绕不开的。

    目前没有看到Lyra 2.0开源的消息,但英伟达过去在研究方向上有开放的传统,后续会不会放出来让社区用,值得盯着。


    对于做具身智能的团队来说,这类工具的价值在于缩短迭代周期。以前一个场景要扫好几天,现在一张图几分钟出结果,测完不行马上改,迭代速度快了不止一个量级。

  • Google I/O 2026明天开幕:Gemini 4.0、XR眼镜和Aluminium OS一次看完

    明天(5月19日)凌晨1点,Google I/O 2026就要开幕了。这场在加州山景城Shoreline圆形剧场举办的大会,今年把全部火力集中到了AI上——官方直接放话,主题演讲就讲两件事:最新的Gemini模型更新,以及智能体编程(agentic coding)。

    有意思的是,Google在5月12日的Android Show上已经把平台类消息全放完了,所以这次I/O完全不给别的新闻留活路,就是要让你盯着模型和硬件看。

    Gemini 4.0,这次能打吗?

    行业里普遍预计Google会在本届I/O正式推出Gemini 4.0。这个数字命名很有意思——跳过了3.5、3.8这些中间版本,直接上4.0,摆明了是要跟Claude Opus 4.7和GPT-5.5正面刚。

    核心看点只有一个:Gemini 4.0在GPQA基准测试上能不能摸到Claude Mythos Preview的94.6%水平。如果能,Google这波就拿下了当周AI行业的叙事主导权。

    除了纯性能,这次Gemini的Workspace集成和智能体任务可靠性也是重点。企业用户不在乎你跑分多少,只在乎这东西能不能稳定帮我干活。

    Android XR眼镜终于要见了

    Google的XR眼镜这次真的要亮相了。已确认的硬件合作伙伴包括三星、Warby Parker、Gentle Monster和XREAL。产品规划里有一款无显示屏版本,靠语音调用Gemini交互,不用抬手不用看屏幕,问就行。

    这东西2026年就要上市,比Meta雷声大雨点小的Avocado模型靠谱多了——至少眼镜是实打实的硬件,你能摸到。

    Aluminium OS:ChromeOS的接班人

    这个比较意外。Google副总裁Sameer Samat已经公开确认2026年推出Aluminium OS,定位是ChromeOS的替代系统,面向消费级笔记本市场。

    泄露出来的16分钟上手演示显示,这系统长得像Android的桌面版——底部有Dock栏,支持虚拟桌面,还能通过「Link to iOS」应用跟iPhone互联。对,Google也在打跨设备协同的主意,跟苹果的生态封闭正好反着来。

    对企业用户意味着什么

    预期会同步发布Google Cloud Agentic Toolkit,包含扩展API、明确定价细则和Workspace深度集成。企业要是想用Google的智能体工具,这次应该能拿到一份完整的路线图和价目表。

    对国内做AI应用层的公司来说,Gemini 4.0如果真达到了Claude级别的性能,那模型层的竞争格局又要变。你现在押注的API供应商,半年后可能就不是最优解了。


    为什么这场发布会值得熬夜看

    2026年5月被认为是AI发展史上最繁忙的两周之一,而Google I/O是这波高潮的正式 opening。如果Gemini 4.0表现达到预期,Anthropic和OpenAI苦心经营大半年的叙事优势可能被直接动摇。

    甚至连Meta都推迟了下一代模型Avocado的发布,明说要避免被I/O的新闻热度淹没——你想想,能让竞争对手主动让路的大会,值不值得关注?

  • LangChain:百万Stars的AI Agent工程平台,构建智能应用的万能积木

    LangChain:百万Stars的AI Agent工程平台,构建智能应用的万能积木

    说实话,第一次接触LangChain的时候,我觉得这名字起得太绝了——把语言模型像链条一样串联起来,不就是它干的事嘛?

    从2022年底发布到现在,这个框架已经突破了100万 GitHub Stars,月活开发者超过38万,大约1.5万家企业在用它构建AI应用。在AI Agent开发领域,LangChain基本上就是”基础设施”级别的存在。


    LangChain Logo

    🚀 项目简介

    LangChain 是一个开源的AI Agent工程平台,让开发者能够用模块化的方式构建LLM驱动的应用程序。它的核心理念很简单:把AI应用开发中那些重复的”管道工作”标准化,让你专注于真正需要解决的问题。

    创始人是Harrison Chase,项目在2022年10月首次发布。如今LangChain已经从最初的”链式调用”模式进化成了完整的Agent工程平台,旗下包括LangGraph(图工作流引擎)、LangSmith(可观测性平台)和LangGraph Cloud(托管部署服务)。


    ⚙️ 安装要求和过程

    💻 环境要求

    • Python 3.9+ 或 Node.js 18+
    • 至少一个LLM API Key(OpenAI、Anthropic、Google等)

    📦 快速安装

    # Python版本
    pip install langchain langchain-openai
    
    # Node.js版本
    npm install langchain @langchain/openai

    🧪 30秒上手示例

    from langchain.chat_models import init_chat_model
    
    # 一行初始化模型,支持随时切换供应商
    model = init_chat_model("openai:gpt-4o")
    result = model.invoke("LangChain是什么?")
    print(result.content)

    就这么简单。重点是 init_chat_model 这个函数——你换模型只需要改一个字符串,从 openai:gpt-4oanthropic:claude-sonnetgoogle:gemini,代码不用动。


    💡 核心功能

    • 🔀 LangGraph:图工作流引擎
      LangChain目前最核心的子项目。把Agent的行为定义成有状态图——节点是处理步骤,边是流转规则。支持循环执行、条件分支、并行处理,还有人工介入(human-in-the-loop)的检查点。
    • 🔄 模型无关的抽象层
      写一次代码,换个模型参数就能跑。不管是GPT、Claude还是Gemini,甚至本地部署的Llama,LangChain的抽象层让你不需要为每个模型写适配代码。
    • 🧩 超丰富的集成生态
      700+个集成组件,覆盖向量数据库(Pinecone、Chroma、Weaviate)、工具调用、文件处理、搜索引擎、API对接等。基本上你想连接的外部服务,它都有现成的包。
    • 🔍 LangSmith:全链路可观测性
      在开发调试阶段这是神器——能看到Agent每一步的输入输出、token消耗、延迟,还能做A/B评估。生产环境的Agent出bug了?LangSmith帮你定位问题像用X光一样直观。
    • 📄 RAG(检索增强生成)工具链
      从文档加载、文本切分、向量化存储到检索生成,RAG的全流程LangChain都有成熟的方案。想给AI接上企业知识库?这是最成熟的开源选择之一。

    LangGraph 架构图


    📦 典型使用场景

    📈 场景一:构建企业智能客服

    用LangChain + LangGraph搭建一个多轮对话Agent,连接企业知识库做RAG检索,再通过工具调用(Tool Calling)对接订单查询、退款等业务API。人工客服处理不了的时候自动转人工,整个过程定义成一个清晰的图工作流。

    📊 场景二:自动化数据处理流水线

    比如每天从多个数据源抓取信息 → LLM分析摘要 → 自动生成报告 → 发送到指定渠道。LangChain的链式编排让这条流水线的每一步都可配置、可监控、可回溯。

    🤝 场景三:多Agent协作系统

    LangGraph支持定义多个Agent节点,让它们协作完成复杂任务。比如一个”研究Agent”负责搜索和整理信息,一个”写作Agent”负责生成内容,一个”审核Agent”负责质量把关——各司其职,通过图结构编排协作流程。


    ⭐ 推荐理由

    我觉得LangChain最大的价值不在于某个具体功能,而在于它把AI应用开发从”写Prompt”提升到了”工程化”的层面。

    用创始人Harrison Chase的话说:“你当然可以不用框架直接写Agent——就像你可以不用Web框架直接写网站一样。但大多数人选择用框架,原因是一样的:那些无聊的管道代码既繁琐又容易出错,还会让你分心。”

    Sequoia的合伙人Sonya Huang也说过:“Agent框架是AI技术栈中的中间件层。历史上,中间件公司都是极好的生意,因为它们卡在基础设施和应用之间的关键节点上。”

    当然,Andrej Karpathy也说过反面的观点——最好的生产级Agent代码可能就是一个Python文件加上API调用。这话没毛病,但我个人的经验是,当你的Agent系统复杂度上来了、需要团队协作、需要可观测性、需要快速迭代的时候,有个好框架能省下大量时间。

    💰 一组数据说明一切:

    • 2026年1月完成 2亿美元 C轮融资
    • ARR突破了 5000万美元
    • 月活开发者 38万+
    • 部署企业约 1.5万家

    社区在快速迭代,LangGraph的图工作流范式正在成为Agent开发的事实标准之一。


    📥 下载地址

  • PwC把Claude推给几十万员工:保险核保从10周缩到10天,Anthropic开始收割企业市场

    Anthropic这周干了件大事——和PwC(普华永道)签了个深度合作协议,要把Claude Code和Claude Cowork推给PwC全球几十万名专业人士用。同时,他们还专门给中小企业推出了Claude for Small Business,一口气接了QuickBooks、PayPal、HubSpot、Canva等七个常用工具。

    保险核保从10周压缩到10天,安全工作从小时级缩短到分钟级。我们很高兴把Claude交到PwC数十万员工手中。—— Dario Amodei, Anthropic CEO

    不只是部署工具,是重建业务流程

    这次合作的核心不是简单地把Chatbot塞进企业里。PwC和Anthropic建立了联合卓越中心,要培训3万名美国PwC员工使用Claude,重点做三件事:一是用Claude Code帮客户几周内交付生产级软件(以前得按季度算);二是把AI Agent嵌入投后管理和并购尽职调查全流程;三是彻底改造财务、供应链、HR这些后台职能。

    实际效果确实亮眼。保险核保周期从10周砍到10天——这意味着以前经济上不划算的业务线突然变得可行了。大型机COBOL代码现代化项目,最终管理的代码量是最初预估的4倍,还按时且没超预算。HR系统转型,一周出原型,两个月交付生产环境,现在每天处理数千笔交易。

    中小企业终于也被盯上了

    Claude for Small Business更值得关注。中小企业贡献了美国44%的GDP和近一半的私企就业岗位,但在AI adoption上一直被遗忘。Anthropic这次直接在Claude Cowork里加了一个开关,打开就能连接你已经在用的工具。

    内置了15个现成Agent工作流:工资现金流预测、月度结账、发票催收、营销活动管理、合同审查……覆盖财务、运营、销售营销和客服HR四大领域。关键设计是每一步操作都需要用户审批确认后才执行——不会自作主张发邮件或转账。数据安全方面也做了功课:员工在QuickBooks里本来看不到的数据,通过Claude也一样看不到;Team和企业版默认不拿用户数据训练模型。

    Anthropic的野心:从技术公司变成基础设施

    回看Anthropic这半年的动作:Q1收入同比增长80倍,年化营收超44亿美元,年消费百万美元以上的客户从500家翻倍到1000多家。Gates Foundation给了2亿美元合作,PwC全球部署又把触角伸到了几十万人规模。加上Claude for Small Business直接面向中小企业主,Anthropic基本完成了从”高端AI研究实验室”到”企业AI基础设施提供商”的身份转变。

    最有意思的是PwC自己先当了小白鼠——他们内部先用Claude做了日记账分录、差异分析、RFP开发,还帮Anthropic自己的CFO办公室搭建了国际薪酬系统。这种”Customer Zero”模式比任何PPT都有说服力。

    中小企业占美国近一半经济,但从未拥有大企业的资源。AI是第一个能真正弥合这个差距的技术。—— Daniela Amodei, Anthropic 联合创始人兼总裁


  • 拿了诺贝尔奖18个月后,他融了21亿美元要造AI设计的药

    Demis Hassabis拿诺贝尔奖才过去一年半,他创办的AI制药公司Isomorphic Labs就拿到了21亿美元融资。这笔钱来自Thrive Capital领投,阿布扎比主权基金MGX、新加坡淡马锡、英国主权AI基金都跟投了——注意,三分之二是主权基金。这不是普通的VC轮次,更像是一场国家级战略押注。

    AlphaFold解决了蛋白质折叠问题,而IsoDDE是AlphaFold谱系中第一个在工业规模上解决药物设计问题的系统。

    从诺贝尔奖到21亿美元

    2024年11月,Hassabis在斯德哥尔摩领走了诺贝尔化学奖。AlphaFold发布四年来被190个国家超过200万科学家使用,预测了生物学中几乎所有已知蛋白的结构。但科学荣誉和商业落地之间隔着一条鸿沟——Hassabis用18个月和21亿美元试图跨过去。

    Isomorphic的核心技术叫IsoDDE(Isomorphic Drug Design Engine),今年2月刚公布。它在蛋白质-配体结构预测基准测试上的性能是AlphaFold 3的两倍。传统物理方法算一个结合亲和力需要几周的计算时间和一整个药物化学团队,IsoDDE能在更高精度下以极低成本完成同样的工作。

    第一个吃螃蟹的人?

    Isomorphic计划在今年年底前把自己内部研发的首个AI设计药物送进人体临床试验。如果成功,它将是第一家把AI原生药物从自有管线推进到一期临床的公司。目前公司已与诺华、礼来、强生达成多靶点战略合作,三家的预收入合同总额估计超过20亿美元。

    不过前车之鉴不少。Recursion Pharmaceuticals花了十亿多美元十年时间,至今没有一个商业化药物;BenevolentAI市值从20亿缩水了四分之三;Exscientia的AI设计候选药在一期都没过完就被终止了。FDA到目前为止批准的纯AI设计药物数量是零。

    进入一期的药物最终能上市的几率大约只有十分之一。未来18个月将决定这个雄心是在斯德哥尔摩再次实现,还是只停留在又一份融资PPT里。

    为什么主权基金蜂拥而入

    这轮融资最值得玩味的信号不是金额大小,而是投资人结构。阿布扎比、新加坡、英国的主权基金同时入场,说明各国政府已经把AI制药当成战略赛道来布局了。21亿美元给Isomorphic提供了大约十年的跑道——不需要再融资就能同时推进合作项目和自研管线。

    说白了,这是一场全行业最高赌注的博弈:赌赢了,Isomorphic会成为医药研究领域最有价值的资产;赌输了,这就是有史以来最昂贵的科学实验。不管结果如何,AI改变新药发现这件事本身已经不可逆转了。


  • Meta的Avocado熟了吗?内测多个变体模型,发布却一拖再拖

    Meta的下一代大模型Avocado,这个名字听着就挺接地气,但它的开发进度可一点都不”熟”。本来计划今年3月发布,结果内部测试发现性能跟不上Google、OpenAI和Anthropic的顶尖模型,发布时间至少推迟到了今年5月——也就是眼下这个月。

    多个变体同时测,Meta自己也没拿定主意

    从Meta AI的界面里挖出来的内部信息显示,他们正在同时测试好几个不同版本的Avocado。有个9B参数的小型版本,叫Avocado 9B;还有一个带”agent”和”sub-agent”标签的变体,叫Avocado Mango,支持图像生成,算是个多模态版本。

    除此之外,还有Avocado TOMM(”Tool of many models”,基于Avocado的工具调用版本)、Avocado Thinking 5.6(最新版的思考模型),以及一个只做文本对话的版本叫Paricado。多个不同尺寸的候选版本同时测试,看起来Meta自己也还在纠结,到底哪个配置最终能端上台面。

    内部流出的系统指令显示,Avocado能调用各种内部工具,某些情况下能解出早先Llama模型搞不定的复杂数学题——只不过这些题,Gemini 3和GPT 5早在几个月前就已经能解了。

    性能不够,Gemini来凑

    这件事已经严重到了什么程度?Meta的AI领导层据传已经讨论过临时授权使用Google的Gemini技术。目前Meta AI内部已经在做A/B测试,把一部分请求路由到Gemini模型上跑。这种做法说明,Meta在Avocado成熟之前,打算用外部模型来填补能力缺口。

    对于一家砸了重金要做”世界顶级AI”的公司来说,要靠竞争对手的模型来撑场面,这多少有点尴尬。但换个角度看,这种务实的做法也能理解——总不能让用户一直用着落后于时代的Llama 3等模型吧。

    从开源到闭源,Meta的AI路线大转弯

    Avocado另一个值得关注的动向是,Meta正在告别过去几年力推的开源路线。Avocado预计会以闭源形式发布,只提供API和托管服务,不再像Llama系列那样开放权重。这个转弯不可谓不大,背后自然是CEO扎克伯格对”超级智能”的执念在驱动。

    对于Facebook、Instagram和WhatsApp上那几亿Meta AI的用户来说,Avocado即便追不上前沿竞品,至少也会比现在基于Llama的回复有明显提升。问题是,Meta会不会选择一个相对低调的时机悄悄上线这些改进,还是非要等一个够排场的发布时刻?目前还没有人能给出准信。


    截至本文发布,Avocado的具体发布日期仍然没有官宣。对于关注Meta AI动向的人来说,不妨盯着点这个月的动静——毕竟,”至少5月”这个说法,留给Meta的时间已经不多了。

  • Google I/O 2026明天开幕:Android 17、Gemini Intelligence和神秘的Googlebook

    Google I/O 2026终于要来了。5月19日到20日,就在明天,加州的海岸线旁边又会挤满开发者、记者和那些靠着发布会找灵感的产品经理。今年的主题一点也不神秘——AI无处不在,或者说,Gemini无处不在。

    Android 17:给创作者和普通用户都上了一课

    这次Android 17一口气带来了9个重大升级,其中最让人眼前一亮的是对创作者群体的重视。Google跟Meta合作深度优化了Instagram在Android上的表现,从拍摄到上传的整个管线都重新调过了,照片和视频的质量保留得比以前好得多。

    还有个很实用的功能叫Screen Reactions。你录屏的时候,可以直接把自己的人像叠加在画面上,不需要绿幕,也不需要装第三方软件。这个功能今年夏天先给Pixel用户用,之后会推广到其他Android设备。对于做教程视频或者游戏实况的人来说,这算是个小而美的改进。

    安全方面也有动作。Live Threat Detection现在会持续在后台监控你装的所有App,看看有没有偷偷转发短信、乱用无障碍权限或者后台窃取敏感数据的行为。Find Hub里那个”标记为丢失”的功能也升级了,以后要锁定设备,除了输PIN码还得过生物识别这一关。就算有人猜出了你的密码,没有你的指纹或脸,手机还是打不开。

    银行来电spoofing保护也值得一说。系统会通过你手机里装的银行App验证来电是不是真的来自银行。目前支持的银行有Revolut、Itaú和Nubank,后面还会加更多。这种把系统层和金融App打通做安全验证的思路,确实比单纯靠用户自己辨别诈骗电话要靠谱。

    Gemini Intelligence:从助手到自动化套件

    如果说去年的Gemini还在追赶ChatGPT,那今年的Gemini Intelligence就是奔着”让你的手机自己干活”去的。这个套件包含了一堆自动化功能,比如Rambler——一个升级版的Gboard语音输入,它会自动把你说话时的”嗯”、”啊”、”那个”之类的filler words过滤掉,转写出来的文字干净得多。

    还有个叫Autobrowse的功能,在Chrome里能帮你后台搞定那些需要在多个网站之间跳来跳去的研究任务。比如你要找某个活动最便宜的停车方案,Autobrowse会在后台帮你把多个预订网站都扫一遍,最后给你一个结果。这种”别盯着进度条了,我去帮你弄”的设计哲学,倒是挺符合大家对AI助手的期待的。

    不过Gemini Intelligence的硬件门槛不低。想要完整体验,手机得有旗舰级芯片、12GB以上内存,还得支持Gemini Nano v3。首批支持的设备只有三星Galaxy S26系列和谷歌Pixel 10系列。你手里的老旗舰,哪怕是去年的型号,大概率都跑不动。Google这一手”软硬件绑定升级”,看起来颇有几分苹果的味道。

    Googlebook:第一款AI原生操作系统?

    今年I/O前放出的一个大招是Googlebook。这个被一些人称作”Chromebook精神续作”的新平台,核心是Gemini,很可能就是业界第一款真正意义的AI原生操作系统。硬件合作伙伴已经就位:Acer、ASUS、Dell、HP、Lenovo都会出机器。

    有意思的是,Googlebook不止用Intel芯片,Qualcomm和MediaTek也会入场。这意味着续航、性能和端侧AI能力都会有明显的提升空间。至于大家念叨了好几年的Pixelbook续作,这次会不会跟着亮相,目前还没有准信。但有Googlebook这个平台在,Pixelbook回来的可能性倒是比以前大了不少。

    还有一些值得盯的细节

    • Android XR眼镜的具体形态应该在I/O上会有更多消息。去年只是预览,今年说不定能见到真的可以买到的产品。
    • Gemini for Home已经给了早期体验用户,响应准确度和对话自然度都有提升。配套的Google Home Speaker那个带着彩色光环的小东西,估计会在I/O上正式亮相。
    • Android Auto的UI改版了,用上了Material 3 Expressive的设计语言,地图也支持全屏模式和3D建筑渲染的”沉浸式导航”。

    明天I/O开幕之后,相信还会有更多细节冒出来。Gemini 4.0会不会来?Android XR眼镜能不能真的买到?Googlebook的定价和上市时间是什么?这些问题,过两天应该就有答案了。对于开发者和科技爱好者来说,这届I/O的关注点已经从”又发布了什么新模型”转向了”AI怎么真正落地到日常使用的设备里”——这个转向,本身就很说明问题。

  • 中国AI视频生成弯道超车:ByteDance和快手把美国对手甩在身后

    生成式AI打了一年半,大家都盯着力大砖飞的文本模型,结果视频生成这个关键赛道,被中国团队悄咪咪做到了世界前列。金融时报刚出的报道说,开发者圈子里已经有人在私下认了:ByteDance和快手在视频生成上的进展,比美国同行快不止一步。

    自家短视频库就是最好的训练场

    这事说穿了也不复杂。ByteDance手里有TikTok,快手手里有快手短视频,两家加起来的用户生成内容,是任何美国AI实验室都拿不到的数据宝藏。你让Sora团队去哪搞几百亿条真人的、带标注的、多语言的短视频?ByteDance和快手不需要”去哪搞”,数据就在自家服务器上。

    ByteDance推出的Seedance 2.0,快手的Kling 3.0,都是在这几百亿条视频的”喂养”下迭代出来的。美国实验室要训练视频生成模型,要么花钱买数据集(还不一定合法),要么自己拍(规模和多样性完全没法比)。中国这两家的优势,是天生的。

    “中国生成式AI团队已经在视频生成这个生成式AI的关键战场,走在了美国竞争对手前面。”——金融时报报道援引开发者评论

    美国实验室不是没反应,是追起来费劲

    OpenAI的Sora算是美国这边名头最响的视频生成模型,但一直没大规模开放。Google的Veo也在推,但进度和效果跟Seedance、Kling比,开发者群体里已经有不少人在转向中国模型了。不是说美国模型不好,是视频生成这个任务对数据量的依赖太强,而中国公司手里的数据,是美国公司 legally 拿不到的。

    还有一个容易被忽略的点:中国短视频平台上的内容,天生就是”多模态”的——视频、音频、文字评论、用户互动,全套的。用这些数据训练出来的模型,生成出来的视频在语义连贯性、节奏感、甚至”网感”上,都比只用公开数据集训练的模型要自然得多。

    这事的影响比看起来大

    视频生成不是”能不能让AI画会动的画”这么简单。它是通向世界模型(World Model)的必经之路——你想让AI理解物理世界是怎么运转的,先得让它能生成符合物理规律的视频。中国团队在这个方向上领先,意味着它们在”让AI理解真实世界”这个更大规模的竞赛中,已经抢到了一个有利位置。

    another angle是地缘AI竞争。美国一直在想办法限制中国拿到高端GPU,但数据这个维度,它是限制不了的。ByteDance和快手用自己的用户数据训练出来的模型,不需要英伟达最新款的卡也能迭代——当然有更好,但没有的话,靠数据和算法优化也能往前走。


    这个报道出来后,估计又有一波”中国AI威胁论”要冒头。但站在开发者角度,哪家的模型好用、成本低、生成速度快,就用哪家的。视频生成这个赛道,目前是中国团队在领跑,美国实验室需要加快速度了。

    📎 原文来源:USA Daily Dose – Builders say Chinese AI labs lead US rivals in video era(转引Financial Times报道,记者Eleanor Olcott)