标签: Thinking Machines Lab

  • 前OpenAI CTO放大招:Thinking Machines实时交互模型200ms响应

    前OpenAI CTO放了个大招

    Mira Murati离开OpenAI自己创业才一年多,前几天直接把第一个模型甩了出来。不是那种传统的”你问一句我答一句”的回合制AI,而是真正能实时互动的交互模型。200毫秒的响应延迟,你随时可以插话打断,AI也能同时听、说、看、调用工具。

    这套系统叫TML-Interaction-Small,采用的是2760亿参数的混合专家架构,每次推理只激活120亿参数。关键是它把前后台拆开了:前台专门维持对话流畅,200毫秒为一个时间片持续接收信息;后台负责复杂推理和工具调用,结果流式返回前台,不会打断你的说话节奏。

    200毫秒是什么概念?人说话时自然的停顿间隔大约是200-300毫秒。也就是说,这个模型的响应速度已经接近人类对话的节奏了。

    不只是速度快

    以前那些号称”实时”的语音AI,本质上都是把语音识别、语言模型、语音合成这几个模块拼在一起,中间靠外部工具协调。你说话的时候AI只能等着,说完一段它才开始处理,这就是典型的”回合制”。

    Thinking Machines这套系统是原生实时交互,从架构层面就设计成可以交错处理音频、视频、文本的流数据。它用的编码方案也挺聪明:音频用dMel轻量编码,图像用hMLL编码,所有组件跟Transformer主干网络一起训练,不用单独的编码器拖慢速度。


    在FD-Bench v1.5基准测试里,这个模型拿了77.8分。作为对比,OpenAI的GPT-Realtime-2和谷歌的Gemini 3.1 Flash Live都没超过它。响应延迟0.40秒,比GPT-Realtime-2快了大概4倍。

    钱和人都不缺

    Murati这个人挺厉害的,在OpenAI当CTO的时候就是技术核心人物之一。她出来单干,投资人直接给了20亿美元种子轮,估值砸到120亿美元。团队里还有FAIR实验室的前研究员Piotr Dollar这种级别的人物。

    算力方面也没拖后腿,跟英伟达、谷歌分别签了超过10亿美元的合作协议,拿到基于GB300芯片的超级计算资源。这种配置,基本上就是把”我要做顶级AI”写在脸上了。

    团队自己说几个月里迭代了12个版本,训练日志写了137页。这种折腾劲,倒是很像早期OpenAI的风格。


    真正的交互应该是什么样

    现在大家用ChatGPT语音模式或者Alexa那种智能助手,体验上总感觉差了点什么。你不能在它说话的时候插话,它也不能在你还在想怎么表达的时候就开始回应。这种”半双工”的交互方式,本质上还是把AI当成一个高级搜索引擎来用。

    Murati想做的,是让AI真正像一个人一样跟你对话。你可以随时打断,它可以同时处理多件事,后台在跑复杂推理的时候前台对话不受影响。这种体验,才是大家一直在说的”贾维斯”该有的样子。

    当然现在这个模型还只是研究预览版,正式开放还要等几个月。但方向已经很明确了:AI交互的下一个战场,不是谁的模型参数更多,而是谁能真正做到”自然对话”。

  • Thinking Machines Lab发布实时交互模型:Mira Murati跳出OpenAI后的第一枪

    Mira Murati沉默一年多后,交出了第一张答卷

    前OpenAI首席技术官Mira Murati离开老东家快两年了。她创办的Thinking Machines Lab(TML)在2026年5月11日终于放出了第一个研究预览模型——TML-Interaction-Small。这不是又一个”我们有大模型要发布”的常规操作,而是一个直接挑战现有AI交互范式的新尝试。

    Murati这个人的履历不需要太多介绍:OpenAI的GPT系列和Claude的竞速时代,她坐在CTO的位置上。2023年Altman被董事会开除那几天,她还短暂当过OpenAI的临时CEO。现在她带着一批OpenAI老部下另起炉灶,拿了两轮总共20多亿美元的融资,估值一度冲到500亿美元。

    现有AI都说自己”实时”,但你说话的时候它还在等你停;TML想做的是你随时可以插话,它随时可以接话。

    200毫秒的”微轮次”设计

    目前的实时语音模型——包括OpenAI的GPT-Realtime和Google的Gemini Live——都有一个共同的设计妥协:它们依赖外挂的语音活动检测组件来判断”用户说完了没”,然后把完整输入传给模型,模型生成回复时感知会冻结。你说话的时候它听,它说话的时候你只能等。

    TML的解法是”时间对齐微轮次”:以200毫秒为粒度,同时处理200ms输入、生成200ms输出,输入token流和输出token流在同一个时钟周期里交错运行。效果是你可以随时打断它,它也可以根据视觉信号无提示地响应——比如你指了指屏幕上的某个东西,它不需要你先说”看这个”就能接话。

    Thinking Machines Lab交互模型示意图
    TML交互模型的工作机制示意图(来源:Unite.AI)

    2760亿参数,但只激活120亿

    首个公开亮相的模型TML-Interaction-Small采用MoE(混合专家)架构,总参数规模2760亿(276B),但每次推理只激活120亿(12B)参数。这个设计的目的很明确:在保持模型”脑子够用”的同时,把延迟压到200ms以内。

    另一个有意思的设计是前后台拆分。前台(交互模型)负责低延迟实时交互,没有重型独立编码器:音频通过轻量嵌入层输入梅尔频谱特征,图像拆成40×40的patch,所有组件从零开始和Transformer共同训练。后台是独立的异步运行模型,负责深度推理、工具调用、网页浏览这些高负载任务,不占用前台交互的计算资源。


    跟GPT-Realtime和Gemini Live比怎么样

    TML自己跑了两个测试基准:FD-bench V1(轮次切换延迟)和FD-bench V1.5(交互质量,覆盖用户打断、反馈、背景语音等场景)。数据是他们自家报的,第三方还没验证,但数字差距确实不小:

    • 轮次切换延迟:TML-Interaction-Small 0.40秒 vs GPT-Realtime-2.0(最小思考模式)1.18秒 vs Gemini 3.1 Flash Live(高思考模式)0.57秒
    • 交互质量得分:TML 77.8 vs GPT-Realtime-2.0 46.8 vs Gemini 3.1 Flash Live 45.5

    这个分数意味着什么,现在下结论还太早。FD-bench V1.5是TML自己推出的视觉交互测试集,目前还没有独立的baseline可以对照。而且200ms的延迟在实际网络环境下能不能稳住,也是个大问号。

    钱和人的问题

    TML的融资故事挺戏剧性的。2025年7月完成20亿美元种子轮,估值120亿美元,是当时有记录以来最大规模的种子轮。领投方是Andreessen Horowitz,参投方阵容豪华:英伟达、AMD、思科、Accel、ServiceNow、Jane Street都在列。但2025年底他们想再融一轮把估值推到500亿美元,没成。

    人也在流失。2026年1月,联合创始人Barret Zoph和Luke Metz离职返回OpenAI,核心成员Andrew Tulloch被Meta超级智能实验室挖走。Meta累计从TML挖走了5名创始成员。Murati随后提拔PyTorch联合创始人Soumith Chintala担任公司CTO,算是一个信号:她需要更扎实的工程领袖来稳住局面。

    算力方面,2026年3月跟英伟达达成了合作,英伟达将进行未披露金额的投资,并部署至少1GW的下一代Vera Rubin计算系统。同时也扩大了与谷歌云的合作,使用英伟达GB300硬件训练前沿模型。

    接下来会怎样

    目前模型没有向企业或公众开放。TML表示未来几个月会向选定合作伙伴开放有限研究预览,2026年晚些时候会扩大发布范围。他们还计划推出更大规模的交互模型——当前的276B版本是能满足延迟要求的最小变体,更大的版本在效果上会更好,但延迟能不能压住是未知数。

    值得观察的问题有几个:长会话下的稳定性、弱网环境下的表现、实时安全拒答机制怎么设计。TML这次把”交互范式”这个根本问题拎出来打,勇气是有的,但能不能落地进生产环境,还需要等模型真正开放之后才知道。