YOHO AI

标签：实时交互

前OpenAI CTO放大招：Thinking Machines实时交互模型200ms响应

前OpenAI CTO放了个大招

Mira Murati离开OpenAI自己创业才一年多，前几天直接把第一个模型甩了出来。不是那种传统的”你问一句我答一句”的回合制AI，而是真正能实时互动的交互模型。200毫秒的响应延迟，你随时可以插话打断，AI也能同时听、说、看、调用工具。

这套系统叫TML-Interaction-Small，采用的是2760亿参数的混合专家架构，每次推理只激活120亿参数。关键是它把前后台拆开了：前台专门维持对话流畅，200毫秒为一个时间片持续接收信息；后台负责复杂推理和工具调用，结果流式返回前台，不会打断你的说话节奏。

200毫秒是什么概念？人说话时自然的停顿间隔大约是200-300毫秒。也就是说，这个模型的响应速度已经接近人类对话的节奏了。

不只是速度快

以前那些号称”实时”的语音AI，本质上都是把语音识别、语言模型、语音合成这几个模块拼在一起，中间靠外部工具协调。你说话的时候AI只能等着，说完一段它才开始处理，这就是典型的”回合制”。

Thinking Machines这套系统是原生实时交互，从架构层面就设计成可以交错处理音频、视频、文本的流数据。它用的编码方案也挺聪明：音频用dMel轻量编码，图像用hMLL编码，所有组件跟Transformer主干网络一起训练，不用单独的编码器拖慢速度。

在FD-Bench v1.5基准测试里，这个模型拿了77.8分。作为对比，OpenAI的GPT-Realtime-2和谷歌的Gemini 3.1 Flash Live都没超过它。响应延迟0.40秒，比GPT-Realtime-2快了大概4倍。

钱和人都不缺

Murati这个人挺厉害的，在OpenAI当CTO的时候就是技术核心人物之一。她出来单干，投资人直接给了20亿美元种子轮，估值砸到120亿美元。团队里还有FAIR实验室的前研究员Piotr Dollar这种级别的人物。

算力方面也没拖后腿，跟英伟达、谷歌分别签了超过10亿美元的合作协议，拿到基于GB300芯片的超级计算资源。这种配置，基本上就是把”我要做顶级AI”写在脸上了。

团队自己说几个月里迭代了12个版本，训练日志写了137页。这种折腾劲，倒是很像早期OpenAI的风格。

真正的交互应该是什么样

现在大家用ChatGPT语音模式或者Alexa那种智能助手，体验上总感觉差了点什么。你不能在它说话的时候插话，它也不能在你还在想怎么表达的时候就开始回应。这种”半双工”的交互方式，本质上还是把AI当成一个高级搜索引擎来用。

Murati想做的，是让AI真正像一个人一样跟你对话。你可以随时打断，它可以同时处理多件事，后台在跑复杂推理的时候前台对话不受影响。这种体验，才是大家一直在说的”贾维斯”该有的样子。

当然现在这个模型还只是研究预览版，正式开放还要等几个月。但方向已经很明确了：AI交互的下一个战场，不是谁的模型参数更多，而是谁能真正做到”自然对话”。

📎 原文来源：前OpenAI CTO单挑老东家：新模型200ms响应，延迟压倒GPT-Realtime

2026年5月19日
OpenAI连发三个语音模型，这次不只是”能说话”

OpenAI连发三个语音模型，这次不只是”能说话”

5月7日凌晨，OpenAI一口气发了三款音频模型：GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。官方说法是让开发者能构建”在用户说话时推理、翻译和转写”的实时语音产品。三款模型已经开放给开发者测试了。

这次更新的重点在于”分工”。三款模型各管一摊事：GPT-Realtime-2管实时语音Agent，GPT-Realtime-Translate管实时翻译，GPT-Realtime-Whisper管实时转写。这个打法很OpenAI——不只要做最好的单一模型，还要把整个语音AI的赛道拆成几块，各自做到极致。

GPT-Realtime-2 是 OpenAI 首个具备 GPT-5 级推理能力的语音模型（图源：OpenAI）

GPT-Realtime-2：从”能说”到”会说”

GPT-Realtime-2是这次更新的主角。OpenAI官方的说法是，这是第一款具备”GPT-5级推理”的语音模型。这个模型被设计来处理复杂请求、调用工具、处理对话中的打断，还能在更长的语音会话里保持上下文。

这些能力对应的都是语音Agent落地时最头疼的问题。比如一个用户想咨询买房的事，或者想改签机票，这些场景都可能包含一大堆条件和多轮确认。上下文窗口从32K提升到128K之后，模型可以在更长的实时对话里保留前面出现过的信息，不会聊到一半把前面说的话忘了。

GPT-Realtime-2在Big Bench Audio测试上比上一代GPT-Realtime-1.5高15.2%，在Audio MultiChallenge上高13.8%。这两个指标衡量的是模型在音频输入、多轮语音、复杂指令和上下文整合方面的能力。

还有一个很实用的细节：可调推理强度。你可以根据场景选择用多少算力。多数生产场景可以先使用较低的推理强度，优先保证通话里的响应速度；遇到更复杂的客服、预订、排障任务，再提高推理强度，用更多计算换取更完整的判断。这个设计很接地气——语音交互最怕的就是卡顿，用户在电话里等一两秒就会觉得”这AI不行”。

已经有企业在用了，效果还不错

OpenAI公布了几个已经在测试的企业用户：美国房地产网站Zillow、旅游预订平台Priceline、德国电信。这些都不是小打小闹的Demo，而是真实业务场景。

Zillow在用GPT-Realtime-2构建可以理解住房条件并安排看房的语音助手。他们说，在最困难的对抗性测试中，经过prompt优化后，电话任务成功率从69%提升到95%。这个提升幅度很夸张，但也说明语音Agent在垂直场景里确实能干活了。

Priceline的用例更典型：旅游预订链条很长，用户可能要查航班、订酒店、调整日期、处理延误、比较价格，还可能在境外需要翻译。语音Agent如果能稳定接入后台系统，就有机会把”问答”推进到”办事”。这个跨越才是语音AI真正有价值的地方。

另外两款模型：翻译和转写

GPT-Realtime-Translate主打实时语音到语音翻译，支持70多种输入语言到13种输出语言。传统语音翻译常常要求说话人停顿，系统等一句话结束后再翻译；而GPT-Realtime-Translate更接近连续口译的形态，说话人讲话时它就能跟上节奏。

GPT-Realtime-Whisper则强调实时流式转写，可以在说话人讲话时生成字幕、会议记录和工作流更新。它的价格最便宜，只有0.017美元/分钟。

三款模型放在一起看，OpenAI已经把实时音频拆成了三个明确入口，价格和延迟要求各不相同。奥特曼想要的可能是”通吃”——不管你要做语音客服、跨语言会议还是实时字幕，都得用我的API。

语音AI这波竞争，正在从”像人”变成”能办事”

这个市场里已经有一堆强势玩家了。ElevenLabs今年2月完成5亿美元D轮融资，估值110亿美元；Deepgram今年1月完成1.3亿美元融资，估值13亿美元，服务1300多家客户；Cartesia的Sonic 3模型已经有1万多客户使用，主打90毫秒低延迟。

OpenAI的优势在于模型栈——它可以把整个企业调用TTS的链路放在同一个开发者平台里。对开发者来说，少接几个供应商，就少一些延迟、集成和运维成本。但语音市场并不好啃，每家都有自己的地盘和忠实客户。

从目前企业用户的测试反馈来看，GPT-Realtime-2确实在某些场景里把语音Agent的完成率拉到了一个可用的水平。但这波”从对话走向执行”的转型能不能真正跑通，可能还得看接下来半年这些早期客户的真实业务数据。

📎 原文来源：AI有嘴了，OpenAI 连发三语音模型 — 36氪

2026年5月19日
Thinking Machines Lab发布实时交互模型：Mira Murati跳出OpenAI后的第一枪
Mira Murati沉默一年多后，交出了第一张答卷

前OpenAI首席技术官Mira Murati离开老东家快两年了。她创办的Thinking Machines Lab（TML）在2026年5月11日终于放出了第一个研究预览模型——TML-Interaction-Small。这不是又一个”我们有大模型要发布”的常规操作，而是一个直接挑战现有AI交互范式的新尝试。

Murati这个人的履历不需要太多介绍：OpenAI的GPT系列和Claude的竞速时代，她坐在CTO的位置上。2023年Altman被董事会开除那几天，她还短暂当过OpenAI的临时CEO。现在她带着一批OpenAI老部下另起炉灶，拿了两轮总共20多亿美元的融资，估值一度冲到500亿美元。

现有AI都说自己”实时”，但你说话的时候它还在等你停；TML想做的是你随时可以插话，它随时可以接话。

200毫秒的”微轮次”设计

目前的实时语音模型——包括OpenAI的GPT-Realtime和Google的Gemini Live——都有一个共同的设计妥协：它们依赖外挂的语音活动检测组件来判断”用户说完了没”，然后把完整输入传给模型，模型生成回复时感知会冻结。你说话的时候它听，它说话的时候你只能等。

TML的解法是”时间对齐微轮次”：以200毫秒为粒度，同时处理200ms输入、生成200ms输出，输入token流和输出token流在同一个时钟周期里交错运行。效果是你可以随时打断它，它也可以根据视觉信号无提示地响应——比如你指了指屏幕上的某个东西，它不需要你先说”看这个”就能接话。

TML交互模型的工作机制示意图（来源：Unite.AI）

2760亿参数，但只激活120亿

首个公开亮相的模型TML-Interaction-Small采用MoE（混合专家）架构，总参数规模2760亿（276B），但每次推理只激活120亿（12B）参数。这个设计的目的很明确：在保持模型”脑子够用”的同时，把延迟压到200ms以内。

另一个有意思的设计是前后台拆分。前台（交互模型）负责低延迟实时交互，没有重型独立编码器：音频通过轻量嵌入层输入梅尔频谱特征，图像拆成40×40的patch，所有组件从零开始和Transformer共同训练。后台是独立的异步运行模型，负责深度推理、工具调用、网页浏览这些高负载任务，不占用前台交互的计算资源。

跟GPT-Realtime和Gemini Live比怎么样

TML自己跑了两个测试基准：FD-bench V1（轮次切换延迟）和FD-bench V1.5（交互质量，覆盖用户打断、反馈、背景语音等场景）。数据是他们自家报的，第三方还没验证，但数字差距确实不小：
- 轮次切换延迟：TML-Interaction-Small 0.40秒 vs GPT-Realtime-2.0（最小思考模式）1.18秒 vs Gemini 3.1 Flash Live（高思考模式）0.57秒
- 交互质量得分：TML 77.8 vs GPT-Realtime-2.0 46.8 vs Gemini 3.1 Flash Live 45.5
这个分数意味着什么，现在下结论还太早。FD-bench V1.5是TML自己推出的视觉交互测试集，目前还没有独立的baseline可以对照。而且200ms的延迟在实际网络环境下能不能稳住，也是个大问号。

钱和人的问题

TML的融资故事挺戏剧性的。2025年7月完成20亿美元种子轮，估值120亿美元，是当时有记录以来最大规模的种子轮。领投方是Andreessen Horowitz，参投方阵容豪华：英伟达、AMD、思科、Accel、ServiceNow、Jane Street都在列。但2025年底他们想再融一轮把估值推到500亿美元，没成。

人也在流失。2026年1月，联合创始人Barret Zoph和Luke Metz离职返回OpenAI，核心成员Andrew Tulloch被Meta超级智能实验室挖走。Meta累计从TML挖走了5名创始成员。Murati随后提拔PyTorch联合创始人Soumith Chintala担任公司CTO，算是一个信号：她需要更扎实的工程领袖来稳住局面。

算力方面，2026年3月跟英伟达达成了合作，英伟达将进行未披露金额的投资，并部署至少1GW的下一代Vera Rubin计算系统。同时也扩大了与谷歌云的合作，使用英伟达GB300硬件训练前沿模型。

接下来会怎样

目前模型没有向企业或公众开放。TML表示未来几个月会向选定合作伙伴开放有限研究预览，2026年晚些时候会扩大发布范围。他们还计划推出更大规模的交互模型——当前的276B版本是能满足延迟要求的最小变体，更大的版本在效果上会更好，但延迟能不能压住是未知数。

值得观察的问题有几个：长会话下的稳定性、弱网环境下的表现、实时安全拒答机制怎么设计。TML这次把”交互范式”这个根本问题拎出来打，勇气是有的，但能不能落地进生产环境，还需要等模型真正开放之后才知道。

📎 原文来源：Unite.AI – Thinking Machines Lab Ships First Model With 200ms Real-Time Interaction
2026年5月18日

标签： 实时交互

前OpenAI CTO放大招：Thinking Machines实时交互模型200ms响应

前OpenAI CTO放了个大招

不只是速度快

钱和人都不缺

真正的交互应该是什么样

OpenAI连发三个语音模型，这次不只是”能说话”

OpenAI连发三个语音模型，这次不只是”能说话”

GPT-Realtime-2：从”能说”到”会说”

已经有企业在用了，效果还不错

另外两款模型：翻译和转写

语音AI这波竞争，正在从”像人”变成”能办事”

Thinking Machines Lab发布实时交互模型：Mira Murati跳出OpenAI后的第一枪

Mira Murati沉默一年多后，交出了第一张答卷

200毫秒的”微轮次”设计

2760亿参数，但只激活120亿

跟GPT-Realtime和Gemini Live比怎么样

钱和人的问题

接下来会怎样

标签：实时交互