标签: 世界模型

  • Google把20年街景数据喂给了Genie,AI现在能模拟你家门口的街道了

    你有没有在Google Maps的街景里「逛」过别人的 neighborhood?把那个小黄人往巴黎某条街上一扔,看看酒店是不是在安全的地段。Google现在想把这件事变得不止是「看看」,而是让你真正走进去、改天气、看暴风雪里的同一条街是什么样子。

    5月19日的Google I/O大会上,DeepMind宣布把Street View的数据接入Project Genie——Google的通用世界模型。简单来说,Genie可以根据文字或图片提示,生成可交互的游戏式三维环境。现在加上街景,它生成的就是真实世界的地方。

    Google Genie Street View 模拟展示
    Genie接入街景数据后,可生成纽约街景的交互式模拟(图源:TechCrunch)

    为什么这件事有意思

    DeepMind研究员Jack Parker-Holder举了一个很具体的例子:一个即将部署到伦敦的机器人,那边常年见不到什么太阳。用Genie,他们可以模拟阳光从维多利亚式房屋上反射下来的罕见场景,这样机器人真的遇到时就不会「懵掉」。

    「你可以说,我要去纽约,但不是这个季节,是下雪的时候。我想看看那条街在下雪时是什么样子。」

    街景数据积累,Google干了20年。背着摄像头的小车和塞了相机的背包,在全球110个国家和七大洲拍了超过2800亿张图片。这些数据的价值,过去主要体现在地图产品和广告上,现在DeepMind找到了新用法。


    不只是玩游戏

    Genie 3去年8月开放了研究预览,今年1月向美国的Google AI Ultra订阅用户开放。它的目标应用场景有三个:教育、游戏、机器人训练。接上街景之后,机器人训练这个场景立刻变得很实。

    Waymo已经在用Genie的模拟器来训练无人驾驶汽车应对「极罕见事件」——比如龙卷风,或者一头大象突然出现在路上。以前这种场景只能靠人工合成,现在有了街景作为基底,模拟出来的环境至少地理位置是真实的。

    和Waymo自己的模拟器相比,Genie的优势在于视角。Waymo的模拟都是从车载摄像头角度看的,而街景数据可以切换到任意视角——机器人视角、行人视角、甚至无人机视角。

    • 2800亿张街景图片覆盖全球110个国家
    • Waymo已用Genie模拟龙卷风、大象等极端场景
    • 支持任意视角切换(车载/行人/机器人/无人机)
    • 教育、游戏、机器人训练三大目标场景

    还差在哪里

    坦率说,现在的效果还没到「以假乱真」的程度。Google团队给我看的样片,包括我以前住过的一个街区的海底版本,识别度很高,但画质还是电子游戏水准,不是照片级真实。

    更大的问题是物理规律。现在的Genie模型还没有真正理解因果关系——比如在一个约书亚树国家公园的雪地场景模拟里,跑过去的人直接穿过了仙人掌和灌木丛。物理规则不是硬编码进去的,模型是通过被动观察自己「悟」出来的,这个过程还需要时间。

    「这类模型在准确度和质量上,可能比视频生成落后6到12个月。但我认为这是可以解决的。」——Jack Parker-Holder

    对比一下,Google自己的图像生成器Nano Banana已经能在信息图里生成完美的文字,视频生成器Veo也理解了纸船会跟着水流漂、烟会在空气中散开这些物理常识。Genie要追上这个水平,还得再跑一阵。

    目前,Street View in Genie已经向部分美国Ultra用户开放,接下来几周会逐步扩展到全球Ultra用户。DeepMind的产品经理Diego Rivas提醒说,这还是一个实验性的东西,准确度方面还有很多要改进的地方。

    但方向是清晰的。Google Maps的前总监Jonathan Herbert说,他们很早就在想怎么把地图数据用在新形式的AI研究上。Genie接入街景,是这个世界模型第一次真正摸到「真实世界的地基」。接下来会发生什么,值得盯着看。

  • 这家做AI视频的公司,想在世界模型赛道上赢过Google

    这家做AI视频的公司,想在世界模型赛道上赢过Google

    Runway可能是硅谷最不像硅谷公司的AI初创企业。没有斯坦福辍学生创始人,没有前谷歌员工光环,也没有动辄上亿美元的种子轮让他们有资本忽略营收。三个联合创始人里两个来自智利、一个来自希腊,在纽约大学Tisch艺术学院认识的,公司也诞生在纽约,不是帕洛阿尔托。

    但他们很可能成为当下最具影响力的AI公司之一——不是因为已经建成了什么,而是因为正在尝试构建的下一代技术。

    “我们本质上受限于自己对现实的理解。语言模型的训练数据是对现有人类知识的提炼,但要突破这个限制,我们需要利用更少偏见的数据。”——Runway联合创始人兼联席CEO阿纳斯塔西斯·杰曼尼迪斯

    押注世界模型,不走语言模型的老路

    过去几年,AI行业的主流假设是”智能存在于语言之中”。OpenAI的ChatGPT、Anthropic的Claude这些大火的大模型,都是这一思路的产物。但Runway和部分竞争对手押注了完全不同的方向:他们认为下一代AI智能不会从文本中诞生,而是来自视频和世界模型——这类模型学习的是世界的运行规律,而不只是人类描述世界的方式。

    Runway三位联合创始人
    Runway三位联合创始人(来源:TechCrunch)

    Runway成立于2018年,凭借视频生成模型和AI工具建立了行业声誉,旗下最新模型是Gen-4.5,用户可以通过文本提示生成可编辑的电影级内容。目前Runway的技术已经应用于电影制作人和广告公司的工作流,还与狮门影业、AMC电视网等大型媒体公司签署了合作协议。

    估值53亿,但真正的对手是谷歌

    Runway目前的估值为53亿美元,2026年第二季度公司新增了4000万美元的年度经常性收入。过去6个月里,公司已经将计划落地,业务从视频生成拓展至世界模型领域:2025年12月推出了首个世界模型,还计划2026年再推出一款新模型。

    但Runway并不是唯一一家走这条路线的企业,Luma、World Labs等初创公司也在做类似的事情,谷歌的Genie世界模型也指向了同一个方向。所有参与方追求的目标本质上是同一个:创造能够解决人类最棘手问题的AI。


    非典型背景,反而是优势

    Runway累计融资8.6亿美元,其中2026年2月完成了3.15亿美元的融资。这个融资规模和最直接的竞争对手Luma AI(9亿美元)、World Labs(12.9亿美元)大致相当。但Runway还要和OpenAI、谷歌等巨头竞争,后者在算力、资金上的优势非常明显。

    联席CEO巴伦苏埃拉说:”规则只是他们编造出来的。他们说硅谷就是初创公司该待的地方,为什么?那都是编造出来的规则。把所有规则都擦掉,重新来过。”这种不按常理出牌的文化,反而让Runway在巨头林立的AI赛道上找到了自己的位置。

  • 英伟达Lyra 2.0:一张照片生成90米3D世界,具身智能有”健身房”了

    4月16日,英伟达研究团队悄悄放了个大招:Lyra 2.0,一个能从单张照片生成大规模3D场景的系统。这东西的目标很明确——给具身智能(embodied AI)提供训练场,让机器人在虚拟世界里先练熟了,再到现实中干活。

    你只需要喂给它一张图片,它就能给你生成一个纵深90米的连贯3D环境。这个距离什么概念?差不多一个足球场的长度。而且相机一路走一路拍,回来的时候场景还是你刚才看到的那个,不会突然变形或者裂开。

    它解决了两个老大难问题

    以前的3D生成模型有两个通病,英伟达这次都给治了。

    第一个叫”空间遗忘”——相机绕着场景走一圈再回到原点,发现原来的地方已经不认识了,场景扭曲得像进了哈哈镜。Lyra 2.0的做法很直白:实时把每一帧的3D几何信息存下来,相机回到老地方的时候,直接调档案,保证看到的东西跟第一次看到的一样。

    第二个问题更麻烦,叫误差累积——生成的帧数越多,前面犯的错会一直往后传,到最后整个场景崩掉。Lyra 2.0在训练的时候故意把一些有缺陷的输出喂给模型,让它学会自己纠正自己。这个思路有点像让模型”打草稿→检查→修改”,而不是一条路走到黑。

    在图像质量、相机控制这两项核心指标上,Lyra 2.0干掉了GEN3C、Yume-1.5等6个同类型竞品。快速版本比基础版效率提升13倍。

    跟机器人仿真平台打通了

    这是Lyra 2.0最实用的地方。它跟英伟达自己的Isaac Sim(机器人仿真平台)无缝集成,生成的3D场景可以直接导出为网格模型,机器人就能在这个虚拟环境里训练算法。

    以前要训练一个具身智能模型,你得派人拿着激光雷达和相机去现实世界扫一大堆3D数据,费时费力还贵。现在Lyra 2.0能自动生成多样化的训练场景,机器人先在虚拟世界里把活干熟练了,再到现实里上路。

    目前它只支持静态场景生成,动态物体还没搞定。但光是静态场景这个突破,已经给自动驾驶、通用机器人的物理感知训练提供了不少帮助。

    为什么这事值得关注

    3D世界生成这个方向,本质上是给AI建”健身房”。大模型是靠海量文本数据喂出来的,具身智能要靠海量3D交互数据,而现实世界的数据采集成本太高了。

    英伟达这步棋很精明——它不跟你卷大模型,它给你造训练大模型需要的”场地”。你用不用它的GPU跑模型另说,但你要想训练具身智能,它的仿真工具链几乎是绕不开的。

    目前没有看到Lyra 2.0开源的消息,但英伟达过去在研究方向上有开放的传统,后续会不会放出来让社区用,值得盯着。


    对于做具身智能的团队来说,这类工具的价值在于缩短迭代周期。以前一个场景要扫好几天,现在一张图几分钟出结果,测完不行马上改,迭代速度快了不止一个量级。

  • 英伟达2.6B小模型跑赢行业巨兽:单卡生成1分钟720p视频的世界模型来了

    前两天NVIDIA的NVLabs悄悄丢了个炸弹——SANA-WM,一个只有2.6B参数的开源世界模型,能在一块H100上生成720p、1分钟长的可控视频。你没有看错,一块卡,一分钟。

    SANA-WM吞吐量比开源基线高36倍,动作跟随准确率超过所有现有开源方案,视觉质量却跟大规模工业模型差不多。

    混合线性注意力:让长视频不再OOM

    做长视频生成最头疼的问题就是显存爆炸。标准DiT用的Softmax Attention是O(n²)复杂度,生成60秒视频(约1800帧)时,纯Softmax方案大概跑到15秒就OOM了。

    SANA-WM的解法很巧妙——混合线性注意力。帧与帧之间用Gated DeltaNet做线性依赖(O(n)复杂度),每隔几帧再插一次Softmax Attention保长程一致性。这样既控制了显存,又没丢掉全局关联。效果就是:别人OOM的时候,它还在稳稳生成。

    双分支相机控制:6自由度精确驾驭

    世界模型跟普通文生视频最大的区别在于可控性。SANA-WM支持6自由度(6-DoF)相机轨迹控制,输入一张静态图+相机运动路径,就能生成对应的漫游视频。它用双分支架构:粗粒度全局位姿分支理解相机大致走向,细粒度像素对齐几何分支精确到像素级的几何变化。这让生成的视频不只是像,而是准。

    两阶段生成 + 极致训练效率

    生成流程分两步:2.6B基础模型先出60秒原始视频,再由17B精炼网络提升纹理和运动质量。有意思的是训练效率——只用了21.3万条公开视频片段(带6-DoF标注),64张H100跑15天就完事。对比同行动辄256+卡跑几个月,这个数据效率相当亮眼。

    • 蒸馏版 + RTX 5090:60秒720p视频34秒出片
    • 吞吐量:开源基线的36倍
    • 动作跟随准确率:超越所有开源方案
    • 视觉质量:对标LingBot-World等工业基线

    世界模型 vs 文生视频:两条路的分歧

    Sora、Kling这些文生视频模型走的是文字驱动路线,控制力偏弱;SANA-WM这类世界模型走的是图像+轨迹驱动路线,控制力强、物理合理性高。说白了,文生视频像是给AI一段描述让它自由发挥,世界模型像是给AI一张照片和运动指令让它精确执行。

    应用场景也很明确:自动驾驶仿真、机器人训练、游戏内容生成、影视预可视化、建筑漫游……任何需要如果相机这样动,世界会怎样的场景,都是世界模型的主场。

    2.6B参数就能做到这个程度,开源社区该兴奋了。代码已在GitHub放出(NVlabs/Sana-WM),权重按CC BY-NC-SA 4.0许可即将发布。

  • Runway不服硅谷规则:押注世界模型,要和Google正面对决

    Runway这家AI视频生成创业公司,没有典型的硅谷血统。没有斯坦福创始人,没有前Google员工,没有九位数的种子轮让你有资本无视收入。它的三个创始人——两个来自智利,一个来自希腊——在纽约大学Tisch艺术学院相遇,然后在纽约建立了这家公司。

    但Runway也可能是当今最重要的AI公司之一,这取决于你问谁。不是因为它已经构建了什么,而是因为它正在试图构建什么。

    “每个主要AI实验室都在押注语言。Runway押注他们都错了。”

    不同的赌注

    过去几年,AI行业基本在一个前提上运作:智能存在于语言中。OpenAI的ChatGPT和Anthropic的Claude这样的大语言模型反映了这个赌注。

    Runway和其他一些竞争对手正在做一个不同的赌注。它的创始人相信,下一代AI智能不会从文本中构建,而是从视频和世界模型中学习这个世界如何运作,而不仅仅是人类如何描述它。这个区别听起来很学术,但它的影响可不学术。

    Runway联合创始人兼联席CEO Anastasis Germanidis说,直接在来自世界的观察数据上训练模型是AI的下一个前沿。他认为,最先到达那里的公司,不会是那些完善了语言的公司。

    Runway三位创始人
    Runway三位创始人(左起:Cristóbal Valenzuela, Anastasis Germanidis, Alejandro Matamala Ortiz)

    从视频生成到世界模型

    Germanidis告诉TechCrunch:”我们基本上受限于自己对现实的理解。语言模型是在整个互联网上训练的,在留言板、社交媒体、教科书上——提炼现有的人类知识。但要超越这一点,我们需要利用更少偏见的数据。”

    成立于2018年的Runway以其视频生成模型(包括最新的Gen-4.5)和让人们将文本提示转换为可编辑的电影内容的AI工具建立了声誉。

    今天,Runway的技术为电影制作人和广告公司提供生产工作流程,并且该公司已与主要媒体公司如Lionsgate和AMC Networks签署了协议。它的工具甚至被用于像《Everything Everywhere All At Once》这样的电影中。


    商业表现与估值

    Runway现在的估值为53亿美元,并且根据其一位创始人的说法,在2026年第二季度增加了4000万美元的年度经常性收入(ARR)。

    如果Runway关于视频生成是通往世界模型的道路的赌注成功,其结果将从好莱坞影响到药物发现和机器人技术。如果不成功,Runway就有可能被资金远为雄厚的竞争对手——其中Google首当其冲——超越。

    世界模型:科学的数字基础设施

    在过去的六个月里,这家创业公司已经将其计划付诸行动,扩展到视频生成之外,在12月推出了它的第一个世界模型(AI系统可以足够好地模拟环境来预测它们将如何行为),并计划在今年推出另一个。

    Germanidis将世界模型视为科学基础设施。你在单个模型上训练的感觉数据和观察越多,你就越接近宇宙的工作数字孪生——一个你可以比任何实验室都快地运行实验的模型。

    “如果我们能建立一个比人类科学家更好的科学家,我们就能加速我们理解宇宙和解决问题的方式。” —— Anastasis Germanidis

    竞争加剧:不缺对手

    Runway在追求将物理感知的视频模型转化为世界模型方面并不孤单,近期应用案例包括交互式娱乐、游戏和机器人训练。初创公司Luma和World Labs也处于类似的轨迹上,Google也将其Genie世界模型指向同一方向。

    所有人都在追求某种版本的同一件事:解决人类最困难问题的AI。这与Runway的原始产品相去甚远,但这是技术中突现能力和创始人倾向于跟随它引导的结果。

    Runway能否将其视频主导地位带入世界模型还远未确定,竞争也不会等待。Runway是首批开发AI视频生成的公司之一,但世界模型是一场不同的竞赛,有资金雄厚且备受尊敬的竞争对手。Google、前Meta首席科学家Yann LeCun、AI的”教母”Fei-Fei Li,以及越来越多的初创公司都在追逐同一个目标。

    资源和挑战

    AI技能基准公司Workera的CEO兼斯坦福大学讲师Kian Katanforoosh指出,还没有人证明通过世界模型在视频智能和通用推理之间的跳跃,但这并不意味着不可能。他说,如果Runway想将其世界模型赌注变为现实,就需要继续收集资源——其中计算能力首当其冲。

    Runway与CoreWeave和Nvidia有协议,但不愿确认是否有专用的集群访问权限——这是训练前沿模型所需的有保障的大规模计算。

    “没有集群,你要如何建立基础模型?我不认为任何人能做到。” —— Kian Katanforoosh

    Runway迄今为止已筹集了8.6亿美元,包括2月份来自AMD Ventures和Nvidia等战略合作伙伴的3.15亿美元轮融资。根据PitchBook的数据,这与其最直接的竞争对手Luma AI和World Labs大致一致,后两者分别筹集了9亿美元和12.9亿美元。

    但Runway也要面对现任者如OpenAI(根据CEO Sam Altman的说法已筹集约1750亿美元)和科技巨头Google的竞争,其母公司的价值为4.86万亿美元。Google是Runway的最大威胁。该公司的Veo模型直接与Runway的视频生成业务竞争,而其Genie世界模型针对的是Runway正在冲刺的同一长期领域。


    Runway的优势:不按常理出牌

    Katanforoosh并没有把Runway排除在外。他指向AI音频初创公司ElevenLabs,该公司在自己的基准测试上超越了OpenAI和Google,尽管缺乏任一公司的资源和血统。他认为,Runway可以遵循类似的剧本。

    这种比较并没有失去Runway创始人的注意。Valenzuela说,创业公司缺乏湾区的”标准化”给了他们优势。他认为,他们不仅有思想的多样性,而且没有硅谷的关系,他们必须更加精明,缺乏许多同行可以获得的战争基金,这些基金本可以使他们不必在早期生成收入。

    根据Runway首席运营官Michelle Kwon的说法,尽管计算需求随着规模增加,公司并不急于筹集更多资金。

    早期投资者、Compound的管理合伙人Michael Dempsey告诉TechCrunch:”他们的背景让他们能够早早出发,比不更频繁地正确,并建立一种移动得非常快的文化。”

    对Valenzuela来说,这种文化始于他首先如何看待世界。他会把任何空闲时间——作为联席CEO和新父亲,时间不多——用来读书,包括智利诗人Nicanor Parra,他描述为Pablo Neruda的对立面:不那么正式,不那么学术,持有一种认为诗歌属于人民而不是规则的观点。

    “规则只是他们发明的规则。这是我们在Runway做事的一个驱动力。他们说硅谷在这里,初创公司就在这里。为什么?那些只是编造的规则。把它们都擦掉,重新开始。” —— Cristóbal Valenzuela

    📎 原文来源:Runway started by helping filmmakers — now it wants to beat Google at AI(TechCrunch, Rebecca Bellan, 2026-05-15)
  • Runway不想跟OpenAI、Google挤语言模型赛道,它压注的是“世界模型”






    Runway不想跟OpenAI、Google挤语言模型赛道,它押注的是”世界模型”

    如果你关注AI视频生成,应该听过Runway这个名字。这家2018年成立的公司最新估值53亿美元,二季度新增4000万美元年度经常性收入,总融资8.6亿美元。

    但Runway的野心不止是做视频生成工具。他们想做的事,用联合创始人Anastasis Germanidis的话说,是构建”世界模型”——一种能让AI真正理解现实世界运作方式的基础模型。

    Runway三位联合创始人
    Runway三位联合创始人(来源:TechCrunch)

    三个纽约大学相遇的创始人

    故事起点是2016年,三位联合创始人在纽约大学ITP(交互通信项目)相识:

    • Anastasis Germanidis(希腊人),联合创始人兼联合CEO,11岁在雅典爱上编程,后来在纽约大学Tisch艺术学院学神经科学和电影
    • Cristóbal Valenzuela(智利圣地亚哥人),联合创始人兼联合CEO,本科读经济学,做过电影和软件
    • Alejandro Matamala Ortiz(智利圣地亚哥人),首席创新官,学广告出身,之前运营设计公司

    他们最初的使命是:”能不能用AI让每个人都成为电影制作人?”2023年2月发布第一个视频生成模型后,这个问题变成了:”能不能让每个人都成为优秀的电影制作人?”

    再后来,他们发现视频生成模型其实能理解世界的运作方式,于是使命再次扩展——Runway开始押注”世界模型”。


    为什么是视频,而不是语言?

    这是Runway最反共识的赌注。

    现在几乎所有主流AI实验室都在押注语言模型——用整个互联网的文本数据(留言板、社交媒体、教科书)训练模型,提炼人类已有知识。但Germanidis认为,要超越现有知识的边界,需要利用”偏见更少的数据”。

    “我们基本上受制于自己对现实的理解。”Germanidis说。

    Runway的策略是:通过视频生成摸到世界模型的边,然后再扩展到其他领域。他们已经在这么做——2025年12月发布了第一个世界模型,计划2026年再发一个,而且已经组建了机器人部门。

    钱和资源够不够?

    这是最现实的挑战。训练基础模型需要巨大的算力集群,而Runway的竞争对手是:

    • OpenAI:融资约1750亿美元,Sora视频平台已关闭(日耗约100万美元)
    • Google:母公司市值4.86万亿美元,Veo模型直接竞争
    • World Labs(李飞飞创办):融资12.9亿美元,目标同样是世界模型
    • Luma AI:融资9亿美元,方向相似

    Runway总融资8.6亿美元,在这个数字面前显得有点单薄。Workera CEO Katanforoosh的直接问题是:”没有集群,你怎么建立基础模型?我认为没有人能做到这一点。”

    “规则只是他们发明的规则。这就是我们在Runway做事的驱动力。他们说硅谷在这里,所以创业公司就得在这里。为什么?那些只是编造出来的规则。把它们全部清除,重新开始。”——Cristóbal Valenzuela


    世界模型能干什么?

    Germanidis认为世界模型是”科学基础设施”,应用场景远超视频生成:

    • 机器人技术:让机器人理解物理世界
    • 药物发现:模拟分子interactions
    • 气候建模:更准确的气候预测
    • 终极目标:生物世界模型,用于抗衰老研究

    “如果我们能建造比人类科学家更好的科学家,我们就能加速对宇宙的理解,加速解决问题的方式。”——Anastasis Germanidis

    现在做到哪一步了?

    Runway的核心产品是Gen-4.5(最新视频生成模型)。客户包括Lionsgate(狮门影业)、AMC Networks,他们参与的作品包括《瞬息全宇宙》(Everything Everywhere All At Once)。

    但视频生成只是路径,不是终点。Runway相信视频生成是通往世界模型的道路——这是一条跟OpenAI、Google、Anthropic都不同的技术路线。

    如果Runway赌对了,结果会影响从好莱坞到药物发现的无数领域。如果赌错了,他们很可能被资源更雄厚的竞争对手超越。