标签：世界模型

MIT盘点：2026年AI领域最重要的10件事

2026年5月22日
MIT评出2026年AI圈最值得盯紧的10件事，每一件都在改写游戏规则

2026年5月21日
Google把20年街景数据喂给了Genie，AI现在能模拟你家门口的街道了
你有没有在Google Maps的街景里「逛」过别人的 neighborhood？把那个小黄人往巴黎某条街上一扔，看看酒店是不是在安全的地段。Google现在想把这件事变得不止是「看看」，而是让你真正走进去、改天气、看暴风雪里的同一条街是什么样子。

5月19日的Google I/O大会上，DeepMind宣布把Street View的数据接入Project Genie——Google的通用世界模型。简单来说，Genie可以根据文字或图片提示，生成可交互的游戏式三维环境。现在加上街景，它生成的就是真实世界的地方。

Genie接入街景数据后，可生成纽约街景的交互式模拟（图源：TechCrunch）

为什么这件事有意思

DeepMind研究员Jack Parker-Holder举了一个很具体的例子：一个即将部署到伦敦的机器人，那边常年见不到什么太阳。用Genie，他们可以模拟阳光从维多利亚式房屋上反射下来的罕见场景，这样机器人真的遇到时就不会「懵掉」。

「你可以说，我要去纽约，但不是这个季节，是下雪的时候。我想看看那条街在下雪时是什么样子。」

街景数据积累，Google干了20年。背着摄像头的小车和塞了相机的背包，在全球110个国家和七大洲拍了超过2800亿张图片。这些数据的价值，过去主要体现在地图产品和广告上，现在DeepMind找到了新用法。

不只是玩游戏

Genie 3去年8月开放了研究预览，今年1月向美国的Google AI Ultra订阅用户开放。它的目标应用场景有三个：教育、游戏、机器人训练。接上街景之后，机器人训练这个场景立刻变得很实。

Waymo已经在用Genie的模拟器来训练无人驾驶汽车应对「极罕见事件」——比如龙卷风，或者一头大象突然出现在路上。以前这种场景只能靠人工合成，现在有了街景作为基底，模拟出来的环境至少地理位置是真实的。

和Waymo自己的模拟器相比，Genie的优势在于视角。Waymo的模拟都是从车载摄像头角度看的，而街景数据可以切换到任意视角——机器人视角、行人视角、甚至无人机视角。
- 2800亿张街景图片覆盖全球110个国家
- Waymo已用Genie模拟龙卷风、大象等极端场景
- 支持任意视角切换（车载/行人/机器人/无人机）
- 教育、游戏、机器人训练三大目标场景
还差在哪里

坦率说，现在的效果还没到「以假乱真」的程度。Google团队给我看的样片，包括我以前住过的一个街区的海底版本，识别度很高，但画质还是电子游戏水准，不是照片级真实。

更大的问题是物理规律。现在的Genie模型还没有真正理解因果关系——比如在一个约书亚树国家公园的雪地场景模拟里，跑过去的人直接穿过了仙人掌和灌木丛。物理规则不是硬编码进去的，模型是通过被动观察自己「悟」出来的，这个过程还需要时间。

「这类模型在准确度和质量上，可能比视频生成落后6到12个月。但我认为这是可以解决的。」——Jack Parker-Holder

对比一下，Google自己的图像生成器Nano Banana已经能在信息图里生成完美的文字，视频生成器Veo也理解了纸船会跟着水流漂、烟会在空气中散开这些物理常识。Genie要追上这个水平，还得再跑一阵。

目前，Street View in Genie已经向部分美国Ultra用户开放，接下来几周会逐步扩展到全球Ultra用户。DeepMind的产品经理Diego Rivas提醒说，这还是一个实验性的东西，准确度方面还有很多要改进的地方。

但方向是清晰的。Google Maps的前总监Jonathan Herbert说，他们很早就在想怎么把地图数据用在新形式的AI研究上。Genie接入街景，是这个世界模型第一次真正摸到「真实世界的地基」。接下来会发生什么，值得盯着看。

📎 原文来源：TechCrunch – Google’s Genie world model can now simulate real streets with Street View
2026年5月20日
这家做AI视频的公司，想在世界模型赛道上赢过Google

这家做AI视频的公司，想在世界模型赛道上赢过Google

Runway可能是硅谷最不像硅谷公司的AI初创企业。没有斯坦福辍学生创始人，没有前谷歌员工光环，也没有动辄上亿美元的种子轮让他们有资本忽略营收。三个联合创始人里两个来自智利、一个来自希腊，在纽约大学Tisch艺术学院认识的，公司也诞生在纽约，不是帕洛阿尔托。

但他们很可能成为当下最具影响力的AI公司之一——不是因为已经建成了什么，而是因为正在尝试构建的下一代技术。

“我们本质上受限于自己对现实的理解。语言模型的训练数据是对现有人类知识的提炼，但要突破这个限制，我们需要利用更少偏见的数据。”——Runway联合创始人兼联席CEO阿纳斯塔西斯·杰曼尼迪斯

押注世界模型，不走语言模型的老路

过去几年，AI行业的主流假设是”智能存在于语言之中”。OpenAI的ChatGPT、Anthropic的Claude这些大火的大模型，都是这一思路的产物。但Runway和部分竞争对手押注了完全不同的方向：他们认为下一代AI智能不会从文本中诞生，而是来自视频和世界模型——这类模型学习的是世界的运行规律，而不只是人类描述世界的方式。

Runway三位联合创始人（来源：TechCrunch）

Runway成立于2018年，凭借视频生成模型和AI工具建立了行业声誉，旗下最新模型是Gen-4.5，用户可以通过文本提示生成可编辑的电影级内容。目前Runway的技术已经应用于电影制作人和广告公司的工作流，还与狮门影业、AMC电视网等大型媒体公司签署了合作协议。

估值53亿，但真正的对手是谷歌

Runway目前的估值为53亿美元，2026年第二季度公司新增了4000万美元的年度经常性收入。过去6个月里，公司已经将计划落地，业务从视频生成拓展至世界模型领域：2025年12月推出了首个世界模型，还计划2026年再推出一款新模型。

但Runway并不是唯一一家走这条路线的企业，Luma、World Labs等初创公司也在做类似的事情，谷歌的Genie世界模型也指向了同一个方向。所有参与方追求的目标本质上是同一个：创造能够解决人类最棘手问题的AI。

非典型背景，反而是优势

Runway累计融资8.6亿美元，其中2026年2月完成了3.15亿美元的融资。这个融资规模和最直接的竞争对手Luma AI（9亿美元）、World Labs（12.9亿美元）大致相当。但Runway还要和OpenAI、谷歌等巨头竞争，后者在算力、资金上的优势非常明显。

联席CEO巴伦苏埃拉说：”规则只是他们编造出来的。他们说硅谷就是初创公司该待的地方，为什么？那都是编造出来的规则。把所有规则都擦掉，重新来过。”这种不按常理出牌的文化，反而让Runway在巨头林立的AI赛道上找到了自己的位置。

📎 原文来源：Runway started by helping filmmakers — now it wants to beat Google at AI (TechCrunch)

2026年5月19日
英伟达Lyra 2.0：一张照片生成90米3D世界，具身智能有”健身房”了

4月16日，英伟达研究团队悄悄放了个大招：Lyra 2.0，一个能从单张照片生成大规模3D场景的系统。这东西的目标很明确——给具身智能（embodied AI）提供训练场，让机器人在虚拟世界里先练熟了，再到现实中干活。

你只需要喂给它一张图片，它就能给你生成一个纵深90米的连贯3D环境。这个距离什么概念？差不多一个足球场的长度。而且相机一路走一路拍，回来的时候场景还是你刚才看到的那个，不会突然变形或者裂开。

它解决了两个老大难问题

以前的3D生成模型有两个通病，英伟达这次都给治了。

第一个叫”空间遗忘”——相机绕着场景走一圈再回到原点，发现原来的地方已经不认识了，场景扭曲得像进了哈哈镜。Lyra 2.0的做法很直白：实时把每一帧的3D几何信息存下来，相机回到老地方的时候，直接调档案，保证看到的东西跟第一次看到的一样。

第二个问题更麻烦，叫误差累积——生成的帧数越多，前面犯的错会一直往后传，到最后整个场景崩掉。Lyra 2.0在训练的时候故意把一些有缺陷的输出喂给模型，让它学会自己纠正自己。这个思路有点像让模型”打草稿→检查→修改”，而不是一条路走到黑。

在图像质量、相机控制这两项核心指标上，Lyra 2.0干掉了GEN3C、Yume-1.5等6个同类型竞品。快速版本比基础版效率提升13倍。

跟机器人仿真平台打通了

这是Lyra 2.0最实用的地方。它跟英伟达自己的Isaac Sim（机器人仿真平台）无缝集成，生成的3D场景可以直接导出为网格模型，机器人就能在这个虚拟环境里训练算法。

以前要训练一个具身智能模型，你得派人拿着激光雷达和相机去现实世界扫一大堆3D数据，费时费力还贵。现在Lyra 2.0能自动生成多样化的训练场景，机器人先在虚拟世界里把活干熟练了，再到现实里上路。

目前它只支持静态场景生成，动态物体还没搞定。但光是静态场景这个突破，已经给自动驾驶、通用机器人的物理感知训练提供了不少帮助。

为什么这事值得关注

3D世界生成这个方向，本质上是给AI建”健身房”。大模型是靠海量文本数据喂出来的，具身智能要靠海量3D交互数据，而现实世界的数据采集成本太高了。

英伟达这步棋很精明——它不跟你卷大模型，它给你造训练大模型需要的”场地”。你用不用它的GPU跑模型另说，但你要想训练具身智能，它的仿真工具链几乎是绕不开的。

目前没有看到Lyra 2.0开源的消息，但英伟达过去在研究方向上有开放的传统，后续会不会放出来让社区用，值得盯着。

对于做具身智能的团队来说，这类工具的价值在于缩短迭代周期。以前一个场景要扫好几天，现在一张图几分钟出结果，测完不行马上改，迭代速度快了不止一个量级。

📎 原文来源：英伟达发布Lyra 2.0：单张照片生成90米3D环境

2026年5月18日
英伟达2.6B小模型跑赢行业巨兽：单卡生成1分钟720p视频的世界模型来了
前两天NVIDIA的NVLabs悄悄丢了个炸弹——SANA-WM，一个只有2.6B参数的开源世界模型，能在一块H100上生成720p、1分钟长的可控视频。你没有看错，一块卡，一分钟。

SANA-WM吞吐量比开源基线高36倍，动作跟随准确率超过所有现有开源方案，视觉质量却跟大规模工业模型差不多。

混合线性注意力：让长视频不再OOM

做长视频生成最头疼的问题就是显存爆炸。标准DiT用的Softmax Attention是O(n²)复杂度，生成60秒视频（约1800帧）时，纯Softmax方案大概跑到15秒就OOM了。

SANA-WM的解法很巧妙——混合线性注意力。帧与帧之间用Gated DeltaNet做线性依赖（O(n)复杂度），每隔几帧再插一次Softmax Attention保长程一致性。这样既控制了显存，又没丢掉全局关联。效果就是：别人OOM的时候，它还在稳稳生成。

双分支相机控制：6自由度精确驾驭

世界模型跟普通文生视频最大的区别在于可控性。SANA-WM支持6自由度（6-DoF）相机轨迹控制，输入一张静态图+相机运动路径，就能生成对应的漫游视频。它用双分支架构：粗粒度全局位姿分支理解相机大致走向，细粒度像素对齐几何分支精确到像素级的几何变化。这让生成的视频不只是像，而是准。

两阶段生成 + 极致训练效率

生成流程分两步：2.6B基础模型先出60秒原始视频，再由17B精炼网络提升纹理和运动质量。有意思的是训练效率——只用了21.3万条公开视频片段（带6-DoF标注），64张H100跑15天就完事。对比同行动辄256+卡跑几个月，这个数据效率相当亮眼。
- 蒸馏版 + RTX 5090：60秒720p视频34秒出片
- 吞吐量：开源基线的36倍
- 动作跟随准确率：超越所有开源方案
- 视觉质量：对标LingBot-World等工业基线
世界模型 vs 文生视频：两条路的分歧

Sora、Kling这些文生视频模型走的是文字驱动路线，控制力偏弱；SANA-WM这类世界模型走的是图像+轨迹驱动路线，控制力强、物理合理性高。说白了，文生视频像是给AI一段描述让它自由发挥，世界模型像是给AI一张照片和运动指令让它精确执行。

应用场景也很明确：自动驾驶仿真、机器人训练、游戏内容生成、影视预可视化、建筑漫游……任何需要如果相机这样动，世界会怎样的场景，都是世界模型的主场。

2.6B参数就能做到这个程度，开源社区该兴奋了。代码已在GitHub放出（NVlabs/Sana-WM），权重按CC BY-NC-SA 4.0许可即将发布。

📎 原文来源：SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformers / 项目主页
2026年5月17日
Runway不服硅谷规则：押注世界模型，要和Google正面对决

Runway这家AI视频生成创业公司，没有典型的硅谷血统。没有斯坦福创始人，没有前Google员工，没有九位数的种子轮让你有资本无视收入。它的三个创始人——两个来自智利，一个来自希腊——在纽约大学Tisch艺术学院相遇，然后在纽约建立了这家公司。

但Runway也可能是当今最重要的AI公司之一，这取决于你问谁。不是因为它已经构建了什么，而是因为它正在试图构建什么。

“每个主要AI实验室都在押注语言。Runway押注他们都错了。”

不同的赌注

过去几年，AI行业基本在一个前提上运作：智能存在于语言中。OpenAI的ChatGPT和Anthropic的Claude这样的大语言模型反映了这个赌注。

Runway和其他一些竞争对手正在做一个不同的赌注。它的创始人相信，下一代AI智能不会从文本中构建，而是从视频和世界模型中学习这个世界如何运作，而不仅仅是人类如何描述它。这个区别听起来很学术，但它的影响可不学术。

Runway联合创始人兼联席CEO Anastasis Germanidis说，直接在来自世界的观察数据上训练模型是AI的下一个前沿。他认为，最先到达那里的公司，不会是那些完善了语言的公司。

Runway三位创始人（左起：Cristóbal Valenzuela, Anastasis Germanidis, Alejandro Matamala Ortiz）

从视频生成到世界模型

Germanidis告诉TechCrunch：”我们基本上受限于自己对现实的理解。语言模型是在整个互联网上训练的，在留言板、社交媒体、教科书上——提炼现有的人类知识。但要超越这一点，我们需要利用更少偏见的数据。”

成立于2018年的Runway以其视频生成模型（包括最新的Gen-4.5）和让人们将文本提示转换为可编辑的电影内容的AI工具建立了声誉。

今天，Runway的技术为电影制作人和广告公司提供生产工作流程，并且该公司已与主要媒体公司如Lionsgate和AMC Networks签署了协议。它的工具甚至被用于像《Everything Everywhere All At Once》这样的电影中。

商业表现与估值

Runway现在的估值为53亿美元，并且根据其一位创始人的说法，在2026年第二季度增加了4000万美元的年度经常性收入（ARR）。

如果Runway关于视频生成是通往世界模型的道路的赌注成功，其结果将从好莱坞影响到药物发现和机器人技术。如果不成功，Runway就有可能被资金远为雄厚的竞争对手——其中Google首当其冲——超越。

世界模型：科学的数字基础设施

在过去的六个月里，这家创业公司已经将其计划付诸行动，扩展到视频生成之外，在12月推出了它的第一个世界模型（AI系统可以足够好地模拟环境来预测它们将如何行为），并计划在今年推出另一个。

Germanidis将世界模型视为科学基础设施。你在单个模型上训练的感觉数据和观察越多，你就越接近宇宙的工作数字孪生——一个你可以比任何实验室都快地运行实验的模型。

“如果我们能建立一个比人类科学家更好的科学家，我们就能加速我们理解宇宙和解决问题的方式。” —— Anastasis Germanidis

竞争加剧：不缺对手

Runway在追求将物理感知的视频模型转化为世界模型方面并不孤单，近期应用案例包括交互式娱乐、游戏和机器人训练。初创公司Luma和World Labs也处于类似的轨迹上，Google也将其Genie世界模型指向同一方向。

所有人都在追求某种版本的同一件事：解决人类最困难问题的AI。这与Runway的原始产品相去甚远，但这是技术中突现能力和创始人倾向于跟随它引导的结果。

Runway能否将其视频主导地位带入世界模型还远未确定，竞争也不会等待。Runway是首批开发AI视频生成的公司之一，但世界模型是一场不同的竞赛，有资金雄厚且备受尊敬的竞争对手。Google、前Meta首席科学家Yann LeCun、AI的”教母”Fei-Fei Li，以及越来越多的初创公司都在追逐同一个目标。

资源和挑战

AI技能基准公司Workera的CEO兼斯坦福大学讲师Kian Katanforoosh指出，还没有人证明通过世界模型在视频智能和通用推理之间的跳跃，但这并不意味着不可能。他说，如果Runway想将其世界模型赌注变为现实，就需要继续收集资源——其中计算能力首当其冲。

Runway与CoreWeave和Nvidia有协议，但不愿确认是否有专用的集群访问权限——这是训练前沿模型所需的有保障的大规模计算。

“没有集群，你要如何建立基础模型？我不认为任何人能做到。” —— Kian Katanforoosh

Runway迄今为止已筹集了8.6亿美元，包括2月份来自AMD Ventures和Nvidia等战略合作伙伴的3.15亿美元轮融资。根据PitchBook的数据，这与其最直接的竞争对手Luma AI和World Labs大致一致，后两者分别筹集了9亿美元和12.9亿美元。

但Runway也要面对现任者如OpenAI（根据CEO Sam Altman的说法已筹集约1750亿美元）和科技巨头Google的竞争，其母公司的价值为4.86万亿美元。Google是Runway的最大威胁。该公司的Veo模型直接与Runway的视频生成业务竞争，而其Genie世界模型针对的是Runway正在冲刺的同一长期领域。

Runway的优势：不按常理出牌

Katanforoosh并没有把Runway排除在外。他指向AI音频初创公司ElevenLabs，该公司在自己的基准测试上超越了OpenAI和Google，尽管缺乏任一公司的资源和血统。他认为，Runway可以遵循类似的剧本。

这种比较并没有失去Runway创始人的注意。Valenzuela说，创业公司缺乏湾区的”标准化”给了他们优势。他认为，他们不仅有思想的多样性，而且没有硅谷的关系，他们必须更加精明，缺乏许多同行可以获得的战争基金，这些基金本可以使他们不必在早期生成收入。

根据Runway首席运营官Michelle Kwon的说法，尽管计算需求随着规模增加，公司并不急于筹集更多资金。

早期投资者、Compound的管理合伙人Michael Dempsey告诉TechCrunch：”他们的背景让他们能够早早出发，比不更频繁地正确，并建立一种移动得非常快的文化。”

对Valenzuela来说，这种文化始于他首先如何看待世界。他会把任何空闲时间——作为联席CEO和新父亲，时间不多——用来读书，包括智利诗人Nicanor Parra，他描述为Pablo Neruda的对立面：不那么正式，不那么学术，持有一种认为诗歌属于人民而不是规则的观点。

“规则只是他们发明的规则。这是我们在Runway做事的一个驱动力。他们说硅谷在这里，初创公司就在这里。为什么？那些只是编造的规则。把它们都擦掉，重新开始。” —— Cristóbal Valenzuela

📎 原文来源：Runway started by helping filmmakers — now it wants to beat Google at AI（TechCrunch, Rebecca Bellan, 2026-05-15）

2026年5月17日
Runway不想跟OpenAI、Google挤语言模型赛道，它压注的是“世界模型”
Runway不想跟OpenAI、Google挤语言模型赛道，它押注的是”世界模型”

如果你关注AI视频生成，应该听过Runway这个名字。这家2018年成立的公司最新估值53亿美元，二季度新增4000万美元年度经常性收入，总融资8.6亿美元。

但Runway的野心不止是做视频生成工具。他们想做的事，用联合创始人Anastasis Germanidis的话说，是构建”世界模型”——一种能让AI真正理解现实世界运作方式的基础模型。

Runway三位联合创始人（来源：TechCrunch）

三个纽约大学相遇的创始人

故事起点是2016年，三位联合创始人在纽约大学ITP（交互通信项目）相识：
- Anastasis Germanidis（希腊人），联合创始人兼联合CEO，11岁在雅典爱上编程，后来在纽约大学Tisch艺术学院学神经科学和电影
- Cristóbal Valenzuela（智利圣地亚哥人），联合创始人兼联合CEO，本科读经济学，做过电影和软件
- Alejandro Matamala Ortiz（智利圣地亚哥人），首席创新官，学广告出身，之前运营设计公司
他们最初的使命是：”能不能用AI让每个人都成为电影制作人？”2023年2月发布第一个视频生成模型后，这个问题变成了：”能不能让每个人都成为优秀的电影制作人？”

再后来，他们发现视频生成模型其实能理解世界的运作方式，于是使命再次扩展——Runway开始押注”世界模型”。

为什么是视频，而不是语言？

这是Runway最反共识的赌注。

现在几乎所有主流AI实验室都在押注语言模型——用整个互联网的文本数据（留言板、社交媒体、教科书）训练模型，提炼人类已有知识。但Germanidis认为，要超越现有知识的边界，需要利用”偏见更少的数据”。

“我们基本上受制于自己对现实的理解。”Germanidis说。

Runway的策略是：通过视频生成摸到世界模型的边，然后再扩展到其他领域。他们已经在这么做——2025年12月发布了第一个世界模型，计划2026年再发一个，而且已经组建了机器人部门。

钱和资源够不够？

这是最现实的挑战。训练基础模型需要巨大的算力集群，而Runway的竞争对手是：
- OpenAI：融资约1750亿美元，Sora视频平台已关闭（日耗约100万美元）
- Google：母公司市值4.86万亿美元，Veo模型直接竞争
- World Labs（李飞飞创办）：融资12.9亿美元，目标同样是世界模型
- Luma AI：融资9亿美元，方向相似
Runway总融资8.6亿美元，在这个数字面前显得有点单薄。Workera CEO Katanforoosh的直接问题是：”没有集群，你怎么建立基础模型？我认为没有人能做到这一点。”

“规则只是他们发明的规则。这就是我们在Runway做事的驱动力。他们说硅谷在这里，所以创业公司就得在这里。为什么？那些只是编造出来的规则。把它们全部清除，重新开始。”——Cristóbal Valenzuela

世界模型能干什么？

Germanidis认为世界模型是”科学基础设施”，应用场景远超视频生成：
- 机器人技术：让机器人理解物理世界
- 药物发现：模拟分子interactions
- 气候建模：更准确的气候预测
- 终极目标：生物世界模型，用于抗衰老研究
“如果我们能建造比人类科学家更好的科学家，我们就能加速对宇宙的理解，加速解决问题的方式。”——Anastasis Germanidis

现在做到哪一步了？

Runway的核心产品是Gen-4.5（最新视频生成模型）。客户包括Lionsgate（狮门影业）、AMC Networks，他们参与的作品包括《瞬息全宇宙》（Everything Everywhere All At Once）。

但视频生成只是路径，不是终点。Runway相信视频生成是通往世界模型的道路——这是一条跟OpenAI、Google、Anthropic都不同的技术路线。

如果Runway赌对了，结果会影响从好莱坞到药物发现的无数领域。如果赌错了，他们很可能被资源更雄厚的竞争对手超越。

📎 原文来源：Runway started by helping filmmakers — now it wants to beat Google at AI
2026年5月16日

标签： 世界模型

为什么这件事有意思

不只是玩游戏

还差在哪里

这家做AI视频的公司，想在世界模型赛道上赢过Google

押注世界模型，不走语言模型的老路

估值53亿，但真正的对手是谷歌

非典型背景，反而是优势

它解决了两个老大难问题

跟机器人仿真平台打通了

为什么这事值得关注

混合线性注意力：让长视频不再OOM

双分支相机控制：6自由度精确驾驭

两阶段生成 + 极致训练效率

世界模型 vs 文生视频：两条路的分歧

不同的赌注

从视频生成到世界模型

商业表现与估值

世界模型：科学的数字基础设施

竞争加剧：不缺对手

资源和挑战

Runway的优势：不按常理出牌

Runway不想跟OpenAI、Google挤语言模型赛道，它押注的是”世界模型”

三个纽约大学相遇的创始人

为什么是视频，而不是语言？

钱和资源够不够？

世界模型能干什么？

现在做到哪一步了？

标签：世界模型