标签：视频生成

Google I/O 2026全记录：Gemini 3.5、AI搜索和智能眼镜全部到位

Google I/O 2026的主题只有一个：把Gemini塞进你数字生活的每一个角落。这场发布会5月19日开幕，整整两天的议程里，几乎没有哪个产品没被AI重新做一遍。

搜索的”十个蓝色链接”时代正式结束

搜索率先被改造。新搜索框支持长对话式查询，还能给出AI驱动的查询建议，你甚至可以往搜索框里直接拖文档、图片、视频和Chrome标签页。AI Overviews（AI概览）的月活已经摸到25亿，对话式搜索模式的月活也有10亿。

信息代理（information agents）会在后台7×24小时帮你跑任务，生成式UI即时生成交互式视觉内容，背后由Gemini Flash 3.5驱动。出版商的日子估计不太好过了——referral流量还会继续掉。

Gemini Flash 3.5驱动的搜索，已经不再是”搜完给你十个链接”的逻辑，而是直接帮你把事情做完。

Gmail现在能跟你对话了

Gmail Live语音交互模式在I/O上亮相，直接说话就能查邮件、提取行程、找学校通知。不用再盯着列表一页页翻。Workspace这边还有个AI图像生成应用叫Google Pics，支持点击图片局部标注修改需求，不用把提示词全部重写一遍，背后跑的是Gemini和Nano Banana 2模型。

Gemini Spark：常驻后台的AI代理

最值得一提的是Gemini Spark。这不是你叫它才动一下的聊天机器人，而是一个常驻后台的AI代理，能自动写完邮件、生成学习指南、监控订阅费用，还能对接Workspace、Canva、OpenTable这些第三方应用。

硬件：XR眼镜合作款全部亮相

Android XR眼镜的合作款全部亮相——三星、Gentle Monster、Warby Parker的版本都出来了，计划2026年年内发布。谷歌自研的Project Aura眼镜也更新了，计算单元更强，加了指纹解锁，还有新的充电盒设计。

Wear OS 7也有更新，加入了类似iPhone的”实时更新”功能，手表上能同步快递、赛事比分等动态信息，还能查看AI代理的自动化任务进度。

定价：Ultra订阅拆分两档

谷歌把AI订阅Ultra拆成了100美元/月和200美元/月两档，200美元那档包含Project Genie世界模型的访问权限。这个定价明显在对标OpenAI Pro，谷歌这次是真的在全栈铺开，而不只是做个 benchmark 冠军。

📎 原文来源：Google I/O 2026: All the news and announcements – The Verge

2026年5月20日
Google把20年街景数据喂给了Genie，AI现在能模拟你家门口的街道了
你有没有在Google Maps的街景里「逛」过别人的 neighborhood？把那个小黄人往巴黎某条街上一扔，看看酒店是不是在安全的地段。Google现在想把这件事变得不止是「看看」，而是让你真正走进去、改天气、看暴风雪里的同一条街是什么样子。

5月19日的Google I/O大会上，DeepMind宣布把Street View的数据接入Project Genie——Google的通用世界模型。简单来说，Genie可以根据文字或图片提示，生成可交互的游戏式三维环境。现在加上街景，它生成的就是真实世界的地方。

Genie接入街景数据后，可生成纽约街景的交互式模拟（图源：TechCrunch）

为什么这件事有意思

DeepMind研究员Jack Parker-Holder举了一个很具体的例子：一个即将部署到伦敦的机器人，那边常年见不到什么太阳。用Genie，他们可以模拟阳光从维多利亚式房屋上反射下来的罕见场景，这样机器人真的遇到时就不会「懵掉」。

「你可以说，我要去纽约，但不是这个季节，是下雪的时候。我想看看那条街在下雪时是什么样子。」

街景数据积累，Google干了20年。背着摄像头的小车和塞了相机的背包，在全球110个国家和七大洲拍了超过2800亿张图片。这些数据的价值，过去主要体现在地图产品和广告上，现在DeepMind找到了新用法。

不只是玩游戏

Genie 3去年8月开放了研究预览，今年1月向美国的Google AI Ultra订阅用户开放。它的目标应用场景有三个：教育、游戏、机器人训练。接上街景之后，机器人训练这个场景立刻变得很实。

Waymo已经在用Genie的模拟器来训练无人驾驶汽车应对「极罕见事件」——比如龙卷风，或者一头大象突然出现在路上。以前这种场景只能靠人工合成，现在有了街景作为基底，模拟出来的环境至少地理位置是真实的。

和Waymo自己的模拟器相比，Genie的优势在于视角。Waymo的模拟都是从车载摄像头角度看的，而街景数据可以切换到任意视角——机器人视角、行人视角、甚至无人机视角。
- 2800亿张街景图片覆盖全球110个国家
- Waymo已用Genie模拟龙卷风、大象等极端场景
- 支持任意视角切换（车载/行人/机器人/无人机）
- 教育、游戏、机器人训练三大目标场景
还差在哪里

坦率说，现在的效果还没到「以假乱真」的程度。Google团队给我看的样片，包括我以前住过的一个街区的海底版本，识别度很高，但画质还是电子游戏水准，不是照片级真实。

更大的问题是物理规律。现在的Genie模型还没有真正理解因果关系——比如在一个约书亚树国家公园的雪地场景模拟里，跑过去的人直接穿过了仙人掌和灌木丛。物理规则不是硬编码进去的，模型是通过被动观察自己「悟」出来的，这个过程还需要时间。

「这类模型在准确度和质量上，可能比视频生成落后6到12个月。但我认为这是可以解决的。」——Jack Parker-Holder

对比一下，Google自己的图像生成器Nano Banana已经能在信息图里生成完美的文字，视频生成器Veo也理解了纸船会跟着水流漂、烟会在空气中散开这些物理常识。Genie要追上这个水平，还得再跑一阵。

目前，Street View in Genie已经向部分美国Ultra用户开放，接下来几周会逐步扩展到全球Ultra用户。DeepMind的产品经理Diego Rivas提醒说，这还是一个实验性的东西，准确度方面还有很多要改进的地方。

但方向是清晰的。Google Maps的前总监Jonathan Herbert说，他们很早就在想怎么把地图数据用在新形式的AI研究上。Genie接入街景，是这个世界模型第一次真正摸到「真实世界的地基」。接下来会发生什么，值得盯着看。

📎 原文来源：TechCrunch – Google’s Genie world model can now simulate real streets with Street View
2026年5月20日
这家做AI视频的公司，想在世界模型赛道上赢过Google

这家做AI视频的公司，想在世界模型赛道上赢过Google

Runway可能是硅谷最不像硅谷公司的AI初创企业。没有斯坦福辍学生创始人，没有前谷歌员工光环，也没有动辄上亿美元的种子轮让他们有资本忽略营收。三个联合创始人里两个来自智利、一个来自希腊，在纽约大学Tisch艺术学院认识的，公司也诞生在纽约，不是帕洛阿尔托。

但他们很可能成为当下最具影响力的AI公司之一——不是因为已经建成了什么，而是因为正在尝试构建的下一代技术。

“我们本质上受限于自己对现实的理解。语言模型的训练数据是对现有人类知识的提炼，但要突破这个限制，我们需要利用更少偏见的数据。”——Runway联合创始人兼联席CEO阿纳斯塔西斯·杰曼尼迪斯

押注世界模型，不走语言模型的老路

过去几年，AI行业的主流假设是”智能存在于语言之中”。OpenAI的ChatGPT、Anthropic的Claude这些大火的大模型，都是这一思路的产物。但Runway和部分竞争对手押注了完全不同的方向：他们认为下一代AI智能不会从文本中诞生，而是来自视频和世界模型——这类模型学习的是世界的运行规律，而不只是人类描述世界的方式。

Runway三位联合创始人（来源：TechCrunch）

Runway成立于2018年，凭借视频生成模型和AI工具建立了行业声誉，旗下最新模型是Gen-4.5，用户可以通过文本提示生成可编辑的电影级内容。目前Runway的技术已经应用于电影制作人和广告公司的工作流，还与狮门影业、AMC电视网等大型媒体公司签署了合作协议。

估值53亿，但真正的对手是谷歌

Runway目前的估值为53亿美元，2026年第二季度公司新增了4000万美元的年度经常性收入。过去6个月里，公司已经将计划落地，业务从视频生成拓展至世界模型领域：2025年12月推出了首个世界模型，还计划2026年再推出一款新模型。

但Runway并不是唯一一家走这条路线的企业，Luma、World Labs等初创公司也在做类似的事情，谷歌的Genie世界模型也指向了同一个方向。所有参与方追求的目标本质上是同一个：创造能够解决人类最棘手问题的AI。

非典型背景，反而是优势

Runway累计融资8.6亿美元，其中2026年2月完成了3.15亿美元的融资。这个融资规模和最直接的竞争对手Luma AI（9亿美元）、World Labs（12.9亿美元）大致相当。但Runway还要和OpenAI、谷歌等巨头竞争，后者在算力、资金上的优势非常明显。

联席CEO巴伦苏埃拉说：”规则只是他们编造出来的。他们说硅谷就是初创公司该待的地方，为什么？那都是编造出来的规则。把所有规则都擦掉，重新来过。”这种不按常理出牌的文化，反而让Runway在巨头林立的AI赛道上找到了自己的位置。

📎 原文来源：Runway started by helping filmmakers — now it wants to beat Google at AI (TechCrunch)

2026年5月19日
中国AI视频生成弯道超车：ByteDance和快手把美国对手甩在身后

生成式AI打了一年半，大家都盯着力大砖飞的文本模型，结果视频生成这个关键赛道，被中国团队悄咪咪做到了世界前列。金融时报刚出的报道说，开发者圈子里已经有人在私下认了：ByteDance和快手在视频生成上的进展，比美国同行快不止一步。

自家短视频库就是最好的训练场

这事说穿了也不复杂。ByteDance手里有TikTok，快手手里有快手短视频，两家加起来的用户生成内容，是任何美国AI实验室都拿不到的数据宝藏。你让Sora团队去哪搞几百亿条真人的、带标注的、多语言的短视频？ByteDance和快手不需要”去哪搞”，数据就在自家服务器上。

ByteDance推出的Seedance 2.0，快手的Kling 3.0，都是在这几百亿条视频的”喂养”下迭代出来的。美国实验室要训练视频生成模型，要么花钱买数据集（还不一定合法），要么自己拍（规模和多样性完全没法比）。中国这两家的优势，是天生的。

“中国生成式AI团队已经在视频生成这个生成式AI的关键战场，走在了美国竞争对手前面。”——金融时报报道援引开发者评论

美国实验室不是没反应，是追起来费劲

OpenAI的Sora算是美国这边名头最响的视频生成模型，但一直没大规模开放。Google的Veo也在推，但进度和效果跟Seedance、Kling比，开发者群体里已经有不少人在转向中国模型了。不是说美国模型不好，是视频生成这个任务对数据量的依赖太强，而中国公司手里的数据，是美国公司 legally 拿不到的。

还有一个容易被忽略的点：中国短视频平台上的内容，天生就是”多模态”的——视频、音频、文字评论、用户互动，全套的。用这些数据训练出来的模型，生成出来的视频在语义连贯性、节奏感、甚至”网感”上，都比只用公开数据集训练的模型要自然得多。

这事的影响比看起来大

视频生成不是”能不能让AI画会动的画”这么简单。它是通向世界模型（World Model）的必经之路——你想让AI理解物理世界是怎么运转的，先得让它能生成符合物理规律的视频。中国团队在这个方向上领先，意味着它们在”让AI理解真实世界”这个更大规模的竞赛中，已经抢到了一个有利位置。

another angle是地缘AI竞争。美国一直在想办法限制中国拿到高端GPU，但数据这个维度，它是限制不了的。ByteDance和快手用自己的用户数据训练出来的模型，不需要英伟达最新款的卡也能迭代——当然有更好，但没有的话，靠数据和算法优化也能往前走。

这个报道出来后，估计又有一波”中国AI威胁论”要冒头。但站在开发者角度，哪家的模型好用、成本低、生成速度快，就用哪家的。视频生成这个赛道，目前是中国团队在领跑，美国实验室需要加快速度了。

📎 原文来源：USA Daily Dose – Builders say Chinese AI labs lead US rivals in video era（转引Financial Times报道，记者Eleanor Olcott）

2026年5月18日
英伟达2.6B小模型跑赢行业巨兽：单卡生成1分钟720p视频的世界模型来了
前两天NVIDIA的NVLabs悄悄丢了个炸弹——SANA-WM，一个只有2.6B参数的开源世界模型，能在一块H100上生成720p、1分钟长的可控视频。你没有看错，一块卡，一分钟。

SANA-WM吞吐量比开源基线高36倍，动作跟随准确率超过所有现有开源方案，视觉质量却跟大规模工业模型差不多。

混合线性注意力：让长视频不再OOM

做长视频生成最头疼的问题就是显存爆炸。标准DiT用的Softmax Attention是O(n²)复杂度，生成60秒视频（约1800帧）时，纯Softmax方案大概跑到15秒就OOM了。

SANA-WM的解法很巧妙——混合线性注意力。帧与帧之间用Gated DeltaNet做线性依赖（O(n)复杂度），每隔几帧再插一次Softmax Attention保长程一致性。这样既控制了显存，又没丢掉全局关联。效果就是：别人OOM的时候，它还在稳稳生成。

双分支相机控制：6自由度精确驾驭

世界模型跟普通文生视频最大的区别在于可控性。SANA-WM支持6自由度（6-DoF）相机轨迹控制，输入一张静态图+相机运动路径，就能生成对应的漫游视频。它用双分支架构：粗粒度全局位姿分支理解相机大致走向，细粒度像素对齐几何分支精确到像素级的几何变化。这让生成的视频不只是像，而是准。

两阶段生成 + 极致训练效率

生成流程分两步：2.6B基础模型先出60秒原始视频，再由17B精炼网络提升纹理和运动质量。有意思的是训练效率——只用了21.3万条公开视频片段（带6-DoF标注），64张H100跑15天就完事。对比同行动辄256+卡跑几个月，这个数据效率相当亮眼。
- 蒸馏版 + RTX 5090：60秒720p视频34秒出片
- 吞吐量：开源基线的36倍
- 动作跟随准确率：超越所有开源方案
- 视觉质量：对标LingBot-World等工业基线
世界模型 vs 文生视频：两条路的分歧

Sora、Kling这些文生视频模型走的是文字驱动路线，控制力偏弱；SANA-WM这类世界模型走的是图像+轨迹驱动路线，控制力强、物理合理性高。说白了，文生视频像是给AI一段描述让它自由发挥，世界模型像是给AI一张照片和运动指令让它精确执行。

应用场景也很明确：自动驾驶仿真、机器人训练、游戏内容生成、影视预可视化、建筑漫游……任何需要如果相机这样动，世界会怎样的场景，都是世界模型的主场。

2.6B参数就能做到这个程度，开源社区该兴奋了。代码已在GitHub放出（NVlabs/Sana-WM），权重按CC BY-NC-SA 4.0许可即将发布。

📎 原文来源：SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformers / 项目主页
2026年5月17日
Runway不服硅谷规则：押注世界模型，要和Google正面对决

Runway这家AI视频生成创业公司，没有典型的硅谷血统。没有斯坦福创始人，没有前Google员工，没有九位数的种子轮让你有资本无视收入。它的三个创始人——两个来自智利，一个来自希腊——在纽约大学Tisch艺术学院相遇，然后在纽约建立了这家公司。

但Runway也可能是当今最重要的AI公司之一，这取决于你问谁。不是因为它已经构建了什么，而是因为它正在试图构建什么。

“每个主要AI实验室都在押注语言。Runway押注他们都错了。”

不同的赌注

过去几年，AI行业基本在一个前提上运作：智能存在于语言中。OpenAI的ChatGPT和Anthropic的Claude这样的大语言模型反映了这个赌注。

Runway和其他一些竞争对手正在做一个不同的赌注。它的创始人相信，下一代AI智能不会从文本中构建，而是从视频和世界模型中学习这个世界如何运作，而不仅仅是人类如何描述它。这个区别听起来很学术，但它的影响可不学术。

Runway联合创始人兼联席CEO Anastasis Germanidis说，直接在来自世界的观察数据上训练模型是AI的下一个前沿。他认为，最先到达那里的公司，不会是那些完善了语言的公司。

Runway三位创始人（左起：Cristóbal Valenzuela, Anastasis Germanidis, Alejandro Matamala Ortiz）

从视频生成到世界模型

Germanidis告诉TechCrunch：”我们基本上受限于自己对现实的理解。语言模型是在整个互联网上训练的，在留言板、社交媒体、教科书上——提炼现有的人类知识。但要超越这一点，我们需要利用更少偏见的数据。”

成立于2018年的Runway以其视频生成模型（包括最新的Gen-4.5）和让人们将文本提示转换为可编辑的电影内容的AI工具建立了声誉。

今天，Runway的技术为电影制作人和广告公司提供生产工作流程，并且该公司已与主要媒体公司如Lionsgate和AMC Networks签署了协议。它的工具甚至被用于像《Everything Everywhere All At Once》这样的电影中。

商业表现与估值

Runway现在的估值为53亿美元，并且根据其一位创始人的说法，在2026年第二季度增加了4000万美元的年度经常性收入（ARR）。

如果Runway关于视频生成是通往世界模型的道路的赌注成功，其结果将从好莱坞影响到药物发现和机器人技术。如果不成功，Runway就有可能被资金远为雄厚的竞争对手——其中Google首当其冲——超越。

世界模型：科学的数字基础设施

在过去的六个月里，这家创业公司已经将其计划付诸行动，扩展到视频生成之外，在12月推出了它的第一个世界模型（AI系统可以足够好地模拟环境来预测它们将如何行为），并计划在今年推出另一个。

Germanidis将世界模型视为科学基础设施。你在单个模型上训练的感觉数据和观察越多，你就越接近宇宙的工作数字孪生——一个你可以比任何实验室都快地运行实验的模型。

“如果我们能建立一个比人类科学家更好的科学家，我们就能加速我们理解宇宙和解决问题的方式。” —— Anastasis Germanidis

竞争加剧：不缺对手

Runway在追求将物理感知的视频模型转化为世界模型方面并不孤单，近期应用案例包括交互式娱乐、游戏和机器人训练。初创公司Luma和World Labs也处于类似的轨迹上，Google也将其Genie世界模型指向同一方向。

所有人都在追求某种版本的同一件事：解决人类最困难问题的AI。这与Runway的原始产品相去甚远，但这是技术中突现能力和创始人倾向于跟随它引导的结果。

Runway能否将其视频主导地位带入世界模型还远未确定，竞争也不会等待。Runway是首批开发AI视频生成的公司之一，但世界模型是一场不同的竞赛，有资金雄厚且备受尊敬的竞争对手。Google、前Meta首席科学家Yann LeCun、AI的”教母”Fei-Fei Li，以及越来越多的初创公司都在追逐同一个目标。

资源和挑战

AI技能基准公司Workera的CEO兼斯坦福大学讲师Kian Katanforoosh指出，还没有人证明通过世界模型在视频智能和通用推理之间的跳跃，但这并不意味着不可能。他说，如果Runway想将其世界模型赌注变为现实，就需要继续收集资源——其中计算能力首当其冲。

Runway与CoreWeave和Nvidia有协议，但不愿确认是否有专用的集群访问权限——这是训练前沿模型所需的有保障的大规模计算。

“没有集群，你要如何建立基础模型？我不认为任何人能做到。” —— Kian Katanforoosh

Runway迄今为止已筹集了8.6亿美元，包括2月份来自AMD Ventures和Nvidia等战略合作伙伴的3.15亿美元轮融资。根据PitchBook的数据，这与其最直接的竞争对手Luma AI和World Labs大致一致，后两者分别筹集了9亿美元和12.9亿美元。

但Runway也要面对现任者如OpenAI（根据CEO Sam Altman的说法已筹集约1750亿美元）和科技巨头Google的竞争，其母公司的价值为4.86万亿美元。Google是Runway的最大威胁。该公司的Veo模型直接与Runway的视频生成业务竞争，而其Genie世界模型针对的是Runway正在冲刺的同一长期领域。

Runway的优势：不按常理出牌

Katanforoosh并没有把Runway排除在外。他指向AI音频初创公司ElevenLabs，该公司在自己的基准测试上超越了OpenAI和Google，尽管缺乏任一公司的资源和血统。他认为，Runway可以遵循类似的剧本。

这种比较并没有失去Runway创始人的注意。Valenzuela说，创业公司缺乏湾区的”标准化”给了他们优势。他认为，他们不仅有思想的多样性，而且没有硅谷的关系，他们必须更加精明，缺乏许多同行可以获得的战争基金，这些基金本可以使他们不必在早期生成收入。

根据Runway首席运营官Michelle Kwon的说法，尽管计算需求随着规模增加，公司并不急于筹集更多资金。

早期投资者、Compound的管理合伙人Michael Dempsey告诉TechCrunch：”他们的背景让他们能够早早出发，比不更频繁地正确，并建立一种移动得非常快的文化。”

对Valenzuela来说，这种文化始于他首先如何看待世界。他会把任何空闲时间——作为联席CEO和新父亲，时间不多——用来读书，包括智利诗人Nicanor Parra，他描述为Pablo Neruda的对立面：不那么正式，不那么学术，持有一种认为诗歌属于人民而不是规则的观点。

“规则只是他们发明的规则。这是我们在Runway做事的一个驱动力。他们说硅谷在这里，初创公司就在这里。为什么？那些只是编造的规则。把它们都擦掉，重新开始。” —— Cristóbal Valenzuela

📎 原文来源：Runway started by helping filmmakers — now it wants to beat Google at AI（TechCrunch, Rebecca Bellan, 2026-05-15）

2026年5月17日
Runway 这家公司不服：凭什么 AI 的未来只能属于做语言的？

如果你最近关注 AI 视频生成，应该听过 Runway 这个名字。这家公司做 AI 视频工具起家，现在估值 53 亿美元。但最近他们创始人出来讲了句话，大意是：现在所有主流 AI 实验室都在押注语言模型，我们觉得他们全押错了。

这话挺狂的，但也有意思。

Runway 的三位创始人，两个智利人、一个希腊人，在纽约大学 Tisch 艺术学院认识的，2018 年在纽约把公司搞了起来。这跟典型的硅谷创业故事完全不一样——没有斯坦福背景，没有前谷歌员工，种子轮也没有几千万美元让他们先烧着玩。

他们认为语言不是 AI 的终点

现在 AI 圈子基本建立在一个前提上：智能藏在语言里。你看 OpenAI 的 ChatGPT、Anthropic 的 Claude，全都是大型语言模型。但 Runway 不这么看。他们的联合创始人兼联席 CEO Anastasis Germanidis 说，语言模型是在整个互联网上训练的——留言板、社交媒体、教科书——说白了就是提炼现有的人类知识。

“但要超越这一点，我们需要利用偏见更少的数据。”Germanidis 说。Runway 认为，下一代 AI 智能不会建立在文本之上，而是来自视频和世界模型——这些模型学习世界如何运作，而不只是人类如何描述世界。

这个区别听起来很学术，但影响一点不小。如果 Runway 赌对了，那么 AI 的下一个大突破就不是更会聊天，而是更懂物理世界。

Runway 创始团队（来源：TechCrunch）

从帮人做电影到挑战 Google

Runway 最早是干嘛的？让每个人都能成为电影制作人。他们在 2023 年 2 月发布了第一个视频生成模型——跟今天的产品比起来那时候的东西简直拿不出手——但这已经足够让他们在好莱坞站稳脚跟。他们的工具被用来做《瞬息全宇宙》这类电影，跟 Lionsgate 和 AMC Networks 都签了协议。

现在 Runway 估值 53 亿美元，融资总额 8.6 亿美元（今年 2 月刚拿了 3.15 亿美元，AMD Ventures 和 Nvidia 都投了），2026 年第二季度新增了 4000 万美元的年度经常性收入，员工 155 人，办公室分布在纽约、伦敦、旧金山、西雅图、特拉维夫和东京。

但他们不想只做视频生成。去年 12 月，Runway 发布了第一个世界模型，今年还打算再推一个。世界模型是能够足够好地模拟环境的 AI 系统，可以预测环境将如何行为。短期应用包括互动娱乐、游戏和机器人训练，长期的话——Germanidis 把世界模型视为”科学基础设施”。

“如果我们能建造一个比人类科学家更好的科学家，我们就能加速我们理解宇宙和解决问题的方式。”这是 Germanidis 的终极目标——用世界模型来加速科学发现，甚至抗衰老研究。

Google 是最大的威胁

Runway 的赌注能不能成还远未确定，竞争对手也不会坐着等。Google 是 Runway 最大的威胁——Google 的 Veo 模型直接跟 Runway 的视频生成业务竞争，而 Genie 世界模型则瞄准了 Runway 正在争取的同一长期领域。

还有其他资金雄厚的对手：Luma AI 融资 9 亿美元，由 AI”教母”李飞飞创立的 World Labs 融资 12.9 亿美元。OpenAI 融资约 1750 亿美元，母公司谷歌市值 4.86 万亿美元。光看钱，Runway 没有任何优势。

但 Runway 的创始人认为，他们缺乏硅谷”标准配方”这件事反而给了他们优势。联合 CEO Cristóbal Valenzuela 说，他们没有那种湾区的关系网，必须更灵活；没有同龄人获得的那种战争资金，这使他们免于过早产生收入的压力。

Valenzuela 说：”规则只是他们发明的规则。这就是我们在 Runway 做事的驱动力。他们说硅谷在这里，那就是创业公司该待的地方。为什么？这些只是编造的规则。把它们全部擦掉，重新开始。”

这话听起来很理想主义，但也不是完全没有道理。AI 音频创业公司 ElevenLabs 就是一个例子——尽管缺乏 OpenAI 和谷歌的资源和人脉，但他们在自己的基准测试上表现优于两者。Runway 也许能走出一条类似的路。

归根结底，这场赌局还在进行中。Runway 押的是：AI 的下一个大跃迁不会来自更好的语言表达，而是来自对物理世界更深的理解。如果他们对了，Google 和 OpenAI 可能都在朝着错误的方向狂奔。

📎 原文来源：Runway started by helping filmmakers — now it wants to beat Google at AI — TechCrunch

2026年5月16日
Runway不想跟OpenAI、Google挤语言模型赛道，它压注的是“世界模型”
Runway不想跟OpenAI、Google挤语言模型赛道，它押注的是”世界模型”

如果你关注AI视频生成，应该听过Runway这个名字。这家2018年成立的公司最新估值53亿美元，二季度新增4000万美元年度经常性收入，总融资8.6亿美元。

但Runway的野心不止是做视频生成工具。他们想做的事，用联合创始人Anastasis Germanidis的话说，是构建”世界模型”——一种能让AI真正理解现实世界运作方式的基础模型。

Runway三位联合创始人（来源：TechCrunch）

三个纽约大学相遇的创始人

故事起点是2016年，三位联合创始人在纽约大学ITP（交互通信项目）相识：
- Anastasis Germanidis（希腊人），联合创始人兼联合CEO，11岁在雅典爱上编程，后来在纽约大学Tisch艺术学院学神经科学和电影
- Cristóbal Valenzuela（智利圣地亚哥人），联合创始人兼联合CEO，本科读经济学，做过电影和软件
- Alejandro Matamala Ortiz（智利圣地亚哥人），首席创新官，学广告出身，之前运营设计公司
他们最初的使命是：”能不能用AI让每个人都成为电影制作人？”2023年2月发布第一个视频生成模型后，这个问题变成了：”能不能让每个人都成为优秀的电影制作人？”

再后来，他们发现视频生成模型其实能理解世界的运作方式，于是使命再次扩展——Runway开始押注”世界模型”。

为什么是视频，而不是语言？

这是Runway最反共识的赌注。

现在几乎所有主流AI实验室都在押注语言模型——用整个互联网的文本数据（留言板、社交媒体、教科书）训练模型，提炼人类已有知识。但Germanidis认为，要超越现有知识的边界，需要利用”偏见更少的数据”。

“我们基本上受制于自己对现实的理解。”Germanidis说。

Runway的策略是：通过视频生成摸到世界模型的边，然后再扩展到其他领域。他们已经在这么做——2025年12月发布了第一个世界模型，计划2026年再发一个，而且已经组建了机器人部门。

钱和资源够不够？

这是最现实的挑战。训练基础模型需要巨大的算力集群，而Runway的竞争对手是：
- OpenAI：融资约1750亿美元，Sora视频平台已关闭（日耗约100万美元）
- Google：母公司市值4.86万亿美元，Veo模型直接竞争
- World Labs（李飞飞创办）：融资12.9亿美元，目标同样是世界模型
- Luma AI：融资9亿美元，方向相似
Runway总融资8.6亿美元，在这个数字面前显得有点单薄。Workera CEO Katanforoosh的直接问题是：”没有集群，你怎么建立基础模型？我认为没有人能做到这一点。”

“规则只是他们发明的规则。这就是我们在Runway做事的驱动力。他们说硅谷在这里，所以创业公司就得在这里。为什么？那些只是编造出来的规则。把它们全部清除，重新开始。”——Cristóbal Valenzuela

世界模型能干什么？

Germanidis认为世界模型是”科学基础设施”，应用场景远超视频生成：
- 机器人技术：让机器人理解物理世界
- 药物发现：模拟分子interactions
- 气候建模：更准确的气候预测
- 终极目标：生物世界模型，用于抗衰老研究
“如果我们能建造比人类科学家更好的科学家，我们就能加速对宇宙的理解，加速解决问题的方式。”——Anastasis Germanidis

现在做到哪一步了？

Runway的核心产品是Gen-4.5（最新视频生成模型）。客户包括Lionsgate（狮门影业）、AMC Networks，他们参与的作品包括《瞬息全宇宙》（Everything Everywhere All At Once）。

但视频生成只是路径，不是终点。Runway相信视频生成是通往世界模型的道路——这是一条跟OpenAI、Google、Anthropic都不同的技术路线。

如果Runway赌对了，结果会影响从好莱坞到药物发现的无数领域。如果赌错了，他们很可能被资源更雄厚的竞争对手超越。

📎 原文来源：Runway started by helping filmmakers — now it wants to beat Google at AI
2026年5月16日

标签： 视频生成

搜索的”十个蓝色链接”时代正式结束

Gmail现在能跟你对话了

Gemini Spark：常驻后台的AI代理

硬件：XR眼镜合作款全部亮相

定价：Ultra订阅拆分两档

为什么这件事有意思

不只是玩游戏

还差在哪里

这家做AI视频的公司，想在世界模型赛道上赢过Google

押注世界模型，不走语言模型的老路

估值53亿，但真正的对手是谷歌

非典型背景，反而是优势

自家短视频库就是最好的训练场

美国实验室不是没反应，是追起来费劲

这事的影响比看起来大

混合线性注意力：让长视频不再OOM

双分支相机控制：6自由度精确驾驭

两阶段生成 + 极致训练效率

世界模型 vs 文生视频：两条路的分歧

不同的赌注

从视频生成到世界模型

商业表现与估值

世界模型：科学的数字基础设施

竞争加剧：不缺对手

资源和挑战

Runway的优势：不按常理出牌

他们认为语言不是 AI 的终点

从帮人做电影到挑战 Google

Google 是最大的威胁

Runway不想跟OpenAI、Google挤语言模型赛道，它押注的是”世界模型”

三个纽约大学相遇的创始人

为什么是视频，而不是语言？

钱和资源够不够？

世界模型能干什么？

现在做到哪一步了？

标签：视频生成