标签: 视频生成

  • Google I/O 2026全记录:Gemini 3.5、AI搜索和智能眼镜全部到位

    Google I/O 2026的主题只有一个:把Gemini塞进你数字生活的每一个角落。这场发布会5月19日开幕,整整两天的议程里,几乎没有哪个产品没被AI重新做一遍。

    搜索的”十个蓝色链接”时代正式结束

    搜索率先被改造。新搜索框支持长对话式查询,还能给出AI驱动的查询建议,你甚至可以往搜索框里直接拖文档、图片、视频和Chrome标签页。AI Overviews(AI概览)的月活已经摸到25亿,对话式搜索模式的月活也有10亿。

    信息代理(information agents)会在后台7×24小时帮你跑任务,生成式UI即时生成交互式视觉内容,背后由Gemini Flash 3.5驱动。出版商的日子估计不太好过了——referral流量还会继续掉。

    Gemini Flash 3.5驱动的搜索,已经不再是”搜完给你十个链接”的逻辑,而是直接帮你把事情做完。

    Gmail现在能跟你对话了

    Gmail Live语音交互模式在I/O上亮相,直接说话就能查邮件、提取行程、找学校通知。不用再盯着列表一页页翻。Workspace这边还有个AI图像生成应用叫Google Pics,支持点击图片局部标注修改需求,不用把提示词全部重写一遍,背后跑的是Gemini和Nano Banana 2模型。

    Gemini Spark:常驻后台的AI代理

    最值得一提的是Gemini Spark。这不是你叫它才动一下的聊天机器人,而是一个常驻后台的AI代理,能自动写完邮件、生成学习指南、监控订阅费用,还能对接Workspace、Canva、OpenTable这些第三方应用。

    硬件:XR眼镜合作款全部亮相

    Android XR眼镜的合作款全部亮相——三星、Gentle Monster、Warby Parker的版本都出来了,计划2026年年内发布。谷歌自研的Project Aura眼镜也更新了,计算单元更强,加了指纹解锁,还有新的充电盒设计。

    Wear OS 7也有更新,加入了类似iPhone的”实时更新”功能,手表上能同步快递、赛事比分等动态信息,还能查看AI代理的自动化任务进度。

    定价:Ultra订阅拆分两档

    谷歌把AI订阅Ultra拆成了100美元/月和200美元/月两档,200美元那档包含Project Genie世界模型的访问权限。这个定价明显在对标OpenAI Pro,谷歌这次是真的在全栈铺开,而不只是做个 benchmark 冠军。


  • Google把20年街景数据喂给了Genie,AI现在能模拟你家门口的街道了

    你有没有在Google Maps的街景里「逛」过别人的 neighborhood?把那个小黄人往巴黎某条街上一扔,看看酒店是不是在安全的地段。Google现在想把这件事变得不止是「看看」,而是让你真正走进去、改天气、看暴风雪里的同一条街是什么样子。

    5月19日的Google I/O大会上,DeepMind宣布把Street View的数据接入Project Genie——Google的通用世界模型。简单来说,Genie可以根据文字或图片提示,生成可交互的游戏式三维环境。现在加上街景,它生成的就是真实世界的地方。

    Google Genie Street View 模拟展示
    Genie接入街景数据后,可生成纽约街景的交互式模拟(图源:TechCrunch)

    为什么这件事有意思

    DeepMind研究员Jack Parker-Holder举了一个很具体的例子:一个即将部署到伦敦的机器人,那边常年见不到什么太阳。用Genie,他们可以模拟阳光从维多利亚式房屋上反射下来的罕见场景,这样机器人真的遇到时就不会「懵掉」。

    「你可以说,我要去纽约,但不是这个季节,是下雪的时候。我想看看那条街在下雪时是什么样子。」

    街景数据积累,Google干了20年。背着摄像头的小车和塞了相机的背包,在全球110个国家和七大洲拍了超过2800亿张图片。这些数据的价值,过去主要体现在地图产品和广告上,现在DeepMind找到了新用法。


    不只是玩游戏

    Genie 3去年8月开放了研究预览,今年1月向美国的Google AI Ultra订阅用户开放。它的目标应用场景有三个:教育、游戏、机器人训练。接上街景之后,机器人训练这个场景立刻变得很实。

    Waymo已经在用Genie的模拟器来训练无人驾驶汽车应对「极罕见事件」——比如龙卷风,或者一头大象突然出现在路上。以前这种场景只能靠人工合成,现在有了街景作为基底,模拟出来的环境至少地理位置是真实的。

    和Waymo自己的模拟器相比,Genie的优势在于视角。Waymo的模拟都是从车载摄像头角度看的,而街景数据可以切换到任意视角——机器人视角、行人视角、甚至无人机视角。

    • 2800亿张街景图片覆盖全球110个国家
    • Waymo已用Genie模拟龙卷风、大象等极端场景
    • 支持任意视角切换(车载/行人/机器人/无人机)
    • 教育、游戏、机器人训练三大目标场景

    还差在哪里

    坦率说,现在的效果还没到「以假乱真」的程度。Google团队给我看的样片,包括我以前住过的一个街区的海底版本,识别度很高,但画质还是电子游戏水准,不是照片级真实。

    更大的问题是物理规律。现在的Genie模型还没有真正理解因果关系——比如在一个约书亚树国家公园的雪地场景模拟里,跑过去的人直接穿过了仙人掌和灌木丛。物理规则不是硬编码进去的,模型是通过被动观察自己「悟」出来的,这个过程还需要时间。

    「这类模型在准确度和质量上,可能比视频生成落后6到12个月。但我认为这是可以解决的。」——Jack Parker-Holder

    对比一下,Google自己的图像生成器Nano Banana已经能在信息图里生成完美的文字,视频生成器Veo也理解了纸船会跟着水流漂、烟会在空气中散开这些物理常识。Genie要追上这个水平,还得再跑一阵。

    目前,Street View in Genie已经向部分美国Ultra用户开放,接下来几周会逐步扩展到全球Ultra用户。DeepMind的产品经理Diego Rivas提醒说,这还是一个实验性的东西,准确度方面还有很多要改进的地方。

    但方向是清晰的。Google Maps的前总监Jonathan Herbert说,他们很早就在想怎么把地图数据用在新形式的AI研究上。Genie接入街景,是这个世界模型第一次真正摸到「真实世界的地基」。接下来会发生什么,值得盯着看。

  • 这家做AI视频的公司,想在世界模型赛道上赢过Google

    这家做AI视频的公司,想在世界模型赛道上赢过Google

    Runway可能是硅谷最不像硅谷公司的AI初创企业。没有斯坦福辍学生创始人,没有前谷歌员工光环,也没有动辄上亿美元的种子轮让他们有资本忽略营收。三个联合创始人里两个来自智利、一个来自希腊,在纽约大学Tisch艺术学院认识的,公司也诞生在纽约,不是帕洛阿尔托。

    但他们很可能成为当下最具影响力的AI公司之一——不是因为已经建成了什么,而是因为正在尝试构建的下一代技术。

    “我们本质上受限于自己对现实的理解。语言模型的训练数据是对现有人类知识的提炼,但要突破这个限制,我们需要利用更少偏见的数据。”——Runway联合创始人兼联席CEO阿纳斯塔西斯·杰曼尼迪斯

    押注世界模型,不走语言模型的老路

    过去几年,AI行业的主流假设是”智能存在于语言之中”。OpenAI的ChatGPT、Anthropic的Claude这些大火的大模型,都是这一思路的产物。但Runway和部分竞争对手押注了完全不同的方向:他们认为下一代AI智能不会从文本中诞生,而是来自视频和世界模型——这类模型学习的是世界的运行规律,而不只是人类描述世界的方式。

    Runway三位联合创始人
    Runway三位联合创始人(来源:TechCrunch)

    Runway成立于2018年,凭借视频生成模型和AI工具建立了行业声誉,旗下最新模型是Gen-4.5,用户可以通过文本提示生成可编辑的电影级内容。目前Runway的技术已经应用于电影制作人和广告公司的工作流,还与狮门影业、AMC电视网等大型媒体公司签署了合作协议。

    估值53亿,但真正的对手是谷歌

    Runway目前的估值为53亿美元,2026年第二季度公司新增了4000万美元的年度经常性收入。过去6个月里,公司已经将计划落地,业务从视频生成拓展至世界模型领域:2025年12月推出了首个世界模型,还计划2026年再推出一款新模型。

    但Runway并不是唯一一家走这条路线的企业,Luma、World Labs等初创公司也在做类似的事情,谷歌的Genie世界模型也指向了同一个方向。所有参与方追求的目标本质上是同一个:创造能够解决人类最棘手问题的AI。


    非典型背景,反而是优势

    Runway累计融资8.6亿美元,其中2026年2月完成了3.15亿美元的融资。这个融资规模和最直接的竞争对手Luma AI(9亿美元)、World Labs(12.9亿美元)大致相当。但Runway还要和OpenAI、谷歌等巨头竞争,后者在算力、资金上的优势非常明显。

    联席CEO巴伦苏埃拉说:”规则只是他们编造出来的。他们说硅谷就是初创公司该待的地方,为什么?那都是编造出来的规则。把所有规则都擦掉,重新来过。”这种不按常理出牌的文化,反而让Runway在巨头林立的AI赛道上找到了自己的位置。

  • 中国AI视频生成弯道超车:ByteDance和快手把美国对手甩在身后

    生成式AI打了一年半,大家都盯着力大砖飞的文本模型,结果视频生成这个关键赛道,被中国团队悄咪咪做到了世界前列。金融时报刚出的报道说,开发者圈子里已经有人在私下认了:ByteDance和快手在视频生成上的进展,比美国同行快不止一步。

    自家短视频库就是最好的训练场

    这事说穿了也不复杂。ByteDance手里有TikTok,快手手里有快手短视频,两家加起来的用户生成内容,是任何美国AI实验室都拿不到的数据宝藏。你让Sora团队去哪搞几百亿条真人的、带标注的、多语言的短视频?ByteDance和快手不需要”去哪搞”,数据就在自家服务器上。

    ByteDance推出的Seedance 2.0,快手的Kling 3.0,都是在这几百亿条视频的”喂养”下迭代出来的。美国实验室要训练视频生成模型,要么花钱买数据集(还不一定合法),要么自己拍(规模和多样性完全没法比)。中国这两家的优势,是天生的。

    “中国生成式AI团队已经在视频生成这个生成式AI的关键战场,走在了美国竞争对手前面。”——金融时报报道援引开发者评论

    美国实验室不是没反应,是追起来费劲

    OpenAI的Sora算是美国这边名头最响的视频生成模型,但一直没大规模开放。Google的Veo也在推,但进度和效果跟Seedance、Kling比,开发者群体里已经有不少人在转向中国模型了。不是说美国模型不好,是视频生成这个任务对数据量的依赖太强,而中国公司手里的数据,是美国公司 legally 拿不到的。

    还有一个容易被忽略的点:中国短视频平台上的内容,天生就是”多模态”的——视频、音频、文字评论、用户互动,全套的。用这些数据训练出来的模型,生成出来的视频在语义连贯性、节奏感、甚至”网感”上,都比只用公开数据集训练的模型要自然得多。

    这事的影响比看起来大

    视频生成不是”能不能让AI画会动的画”这么简单。它是通向世界模型(World Model)的必经之路——你想让AI理解物理世界是怎么运转的,先得让它能生成符合物理规律的视频。中国团队在这个方向上领先,意味着它们在”让AI理解真实世界”这个更大规模的竞赛中,已经抢到了一个有利位置。

    another angle是地缘AI竞争。美国一直在想办法限制中国拿到高端GPU,但数据这个维度,它是限制不了的。ByteDance和快手用自己的用户数据训练出来的模型,不需要英伟达最新款的卡也能迭代——当然有更好,但没有的话,靠数据和算法优化也能往前走。


    这个报道出来后,估计又有一波”中国AI威胁论”要冒头。但站在开发者角度,哪家的模型好用、成本低、生成速度快,就用哪家的。视频生成这个赛道,目前是中国团队在领跑,美国实验室需要加快速度了。

    📎 原文来源:USA Daily Dose – Builders say Chinese AI labs lead US rivals in video era(转引Financial Times报道,记者Eleanor Olcott)
  • 英伟达2.6B小模型跑赢行业巨兽:单卡生成1分钟720p视频的世界模型来了

    前两天NVIDIA的NVLabs悄悄丢了个炸弹——SANA-WM,一个只有2.6B参数的开源世界模型,能在一块H100上生成720p、1分钟长的可控视频。你没有看错,一块卡,一分钟。

    SANA-WM吞吐量比开源基线高36倍,动作跟随准确率超过所有现有开源方案,视觉质量却跟大规模工业模型差不多。

    混合线性注意力:让长视频不再OOM

    做长视频生成最头疼的问题就是显存爆炸。标准DiT用的Softmax Attention是O(n²)复杂度,生成60秒视频(约1800帧)时,纯Softmax方案大概跑到15秒就OOM了。

    SANA-WM的解法很巧妙——混合线性注意力。帧与帧之间用Gated DeltaNet做线性依赖(O(n)复杂度),每隔几帧再插一次Softmax Attention保长程一致性。这样既控制了显存,又没丢掉全局关联。效果就是:别人OOM的时候,它还在稳稳生成。

    双分支相机控制:6自由度精确驾驭

    世界模型跟普通文生视频最大的区别在于可控性。SANA-WM支持6自由度(6-DoF)相机轨迹控制,输入一张静态图+相机运动路径,就能生成对应的漫游视频。它用双分支架构:粗粒度全局位姿分支理解相机大致走向,细粒度像素对齐几何分支精确到像素级的几何变化。这让生成的视频不只是像,而是准。

    两阶段生成 + 极致训练效率

    生成流程分两步:2.6B基础模型先出60秒原始视频,再由17B精炼网络提升纹理和运动质量。有意思的是训练效率——只用了21.3万条公开视频片段(带6-DoF标注),64张H100跑15天就完事。对比同行动辄256+卡跑几个月,这个数据效率相当亮眼。

    • 蒸馏版 + RTX 5090:60秒720p视频34秒出片
    • 吞吐量:开源基线的36倍
    • 动作跟随准确率:超越所有开源方案
    • 视觉质量:对标LingBot-World等工业基线

    世界模型 vs 文生视频:两条路的分歧

    Sora、Kling这些文生视频模型走的是文字驱动路线,控制力偏弱;SANA-WM这类世界模型走的是图像+轨迹驱动路线,控制力强、物理合理性高。说白了,文生视频像是给AI一段描述让它自由发挥,世界模型像是给AI一张照片和运动指令让它精确执行。

    应用场景也很明确:自动驾驶仿真、机器人训练、游戏内容生成、影视预可视化、建筑漫游……任何需要如果相机这样动,世界会怎样的场景,都是世界模型的主场。

    2.6B参数就能做到这个程度,开源社区该兴奋了。代码已在GitHub放出(NVlabs/Sana-WM),权重按CC BY-NC-SA 4.0许可即将发布。

  • Runway不服硅谷规则:押注世界模型,要和Google正面对决

    Runway这家AI视频生成创业公司,没有典型的硅谷血统。没有斯坦福创始人,没有前Google员工,没有九位数的种子轮让你有资本无视收入。它的三个创始人——两个来自智利,一个来自希腊——在纽约大学Tisch艺术学院相遇,然后在纽约建立了这家公司。

    但Runway也可能是当今最重要的AI公司之一,这取决于你问谁。不是因为它已经构建了什么,而是因为它正在试图构建什么。

    “每个主要AI实验室都在押注语言。Runway押注他们都错了。”

    不同的赌注

    过去几年,AI行业基本在一个前提上运作:智能存在于语言中。OpenAI的ChatGPT和Anthropic的Claude这样的大语言模型反映了这个赌注。

    Runway和其他一些竞争对手正在做一个不同的赌注。它的创始人相信,下一代AI智能不会从文本中构建,而是从视频和世界模型中学习这个世界如何运作,而不仅仅是人类如何描述它。这个区别听起来很学术,但它的影响可不学术。

    Runway联合创始人兼联席CEO Anastasis Germanidis说,直接在来自世界的观察数据上训练模型是AI的下一个前沿。他认为,最先到达那里的公司,不会是那些完善了语言的公司。

    Runway三位创始人
    Runway三位创始人(左起:Cristóbal Valenzuela, Anastasis Germanidis, Alejandro Matamala Ortiz)

    从视频生成到世界模型

    Germanidis告诉TechCrunch:”我们基本上受限于自己对现实的理解。语言模型是在整个互联网上训练的,在留言板、社交媒体、教科书上——提炼现有的人类知识。但要超越这一点,我们需要利用更少偏见的数据。”

    成立于2018年的Runway以其视频生成模型(包括最新的Gen-4.5)和让人们将文本提示转换为可编辑的电影内容的AI工具建立了声誉。

    今天,Runway的技术为电影制作人和广告公司提供生产工作流程,并且该公司已与主要媒体公司如Lionsgate和AMC Networks签署了协议。它的工具甚至被用于像《Everything Everywhere All At Once》这样的电影中。


    商业表现与估值

    Runway现在的估值为53亿美元,并且根据其一位创始人的说法,在2026年第二季度增加了4000万美元的年度经常性收入(ARR)。

    如果Runway关于视频生成是通往世界模型的道路的赌注成功,其结果将从好莱坞影响到药物发现和机器人技术。如果不成功,Runway就有可能被资金远为雄厚的竞争对手——其中Google首当其冲——超越。

    世界模型:科学的数字基础设施

    在过去的六个月里,这家创业公司已经将其计划付诸行动,扩展到视频生成之外,在12月推出了它的第一个世界模型(AI系统可以足够好地模拟环境来预测它们将如何行为),并计划在今年推出另一个。

    Germanidis将世界模型视为科学基础设施。你在单个模型上训练的感觉数据和观察越多,你就越接近宇宙的工作数字孪生——一个你可以比任何实验室都快地运行实验的模型。

    “如果我们能建立一个比人类科学家更好的科学家,我们就能加速我们理解宇宙和解决问题的方式。” —— Anastasis Germanidis

    竞争加剧:不缺对手

    Runway在追求将物理感知的视频模型转化为世界模型方面并不孤单,近期应用案例包括交互式娱乐、游戏和机器人训练。初创公司Luma和World Labs也处于类似的轨迹上,Google也将其Genie世界模型指向同一方向。

    所有人都在追求某种版本的同一件事:解决人类最困难问题的AI。这与Runway的原始产品相去甚远,但这是技术中突现能力和创始人倾向于跟随它引导的结果。

    Runway能否将其视频主导地位带入世界模型还远未确定,竞争也不会等待。Runway是首批开发AI视频生成的公司之一,但世界模型是一场不同的竞赛,有资金雄厚且备受尊敬的竞争对手。Google、前Meta首席科学家Yann LeCun、AI的”教母”Fei-Fei Li,以及越来越多的初创公司都在追逐同一个目标。

    资源和挑战

    AI技能基准公司Workera的CEO兼斯坦福大学讲师Kian Katanforoosh指出,还没有人证明通过世界模型在视频智能和通用推理之间的跳跃,但这并不意味着不可能。他说,如果Runway想将其世界模型赌注变为现实,就需要继续收集资源——其中计算能力首当其冲。

    Runway与CoreWeave和Nvidia有协议,但不愿确认是否有专用的集群访问权限——这是训练前沿模型所需的有保障的大规模计算。

    “没有集群,你要如何建立基础模型?我不认为任何人能做到。” —— Kian Katanforoosh

    Runway迄今为止已筹集了8.6亿美元,包括2月份来自AMD Ventures和Nvidia等战略合作伙伴的3.15亿美元轮融资。根据PitchBook的数据,这与其最直接的竞争对手Luma AI和World Labs大致一致,后两者分别筹集了9亿美元和12.9亿美元。

    但Runway也要面对现任者如OpenAI(根据CEO Sam Altman的说法已筹集约1750亿美元)和科技巨头Google的竞争,其母公司的价值为4.86万亿美元。Google是Runway的最大威胁。该公司的Veo模型直接与Runway的视频生成业务竞争,而其Genie世界模型针对的是Runway正在冲刺的同一长期领域。


    Runway的优势:不按常理出牌

    Katanforoosh并没有把Runway排除在外。他指向AI音频初创公司ElevenLabs,该公司在自己的基准测试上超越了OpenAI和Google,尽管缺乏任一公司的资源和血统。他认为,Runway可以遵循类似的剧本。

    这种比较并没有失去Runway创始人的注意。Valenzuela说,创业公司缺乏湾区的”标准化”给了他们优势。他认为,他们不仅有思想的多样性,而且没有硅谷的关系,他们必须更加精明,缺乏许多同行可以获得的战争基金,这些基金本可以使他们不必在早期生成收入。

    根据Runway首席运营官Michelle Kwon的说法,尽管计算需求随着规模增加,公司并不急于筹集更多资金。

    早期投资者、Compound的管理合伙人Michael Dempsey告诉TechCrunch:”他们的背景让他们能够早早出发,比不更频繁地正确,并建立一种移动得非常快的文化。”

    对Valenzuela来说,这种文化始于他首先如何看待世界。他会把任何空闲时间——作为联席CEO和新父亲,时间不多——用来读书,包括智利诗人Nicanor Parra,他描述为Pablo Neruda的对立面:不那么正式,不那么学术,持有一种认为诗歌属于人民而不是规则的观点。

    “规则只是他们发明的规则。这是我们在Runway做事的一个驱动力。他们说硅谷在这里,初创公司就在这里。为什么?那些只是编造的规则。把它们都擦掉,重新开始。” —— Cristóbal Valenzuela

    📎 原文来源:Runway started by helping filmmakers — now it wants to beat Google at AI(TechCrunch, Rebecca Bellan, 2026-05-15)
  • Runway 这家公司不服:凭什么 AI 的未来只能属于做语言的?

    如果你最近关注 AI 视频生成,应该听过 Runway 这个名字。这家公司做 AI 视频工具起家,现在估值 53 亿美元。但最近他们创始人出来讲了句话,大意是:现在所有主流 AI 实验室都在押注语言模型,我们觉得他们全押错了。

    这话挺狂的,但也有意思。

    Runway 的三位创始人,两个智利人、一个希腊人,在纽约大学 Tisch 艺术学院认识的,2018 年在纽约把公司搞了起来。这跟典型的硅谷创业故事完全不一样——没有斯坦福背景,没有前谷歌员工,种子轮也没有几千万美元让他们先烧着玩。

    他们认为语言不是 AI 的终点

    现在 AI 圈子基本建立在一个前提上:智能藏在语言里。你看 OpenAI 的 ChatGPT、Anthropic 的 Claude,全都是大型语言模型。但 Runway 不这么看。他们的联合创始人兼联席 CEO Anastasis Germanidis 说,语言模型是在整个互联网上训练的——留言板、社交媒体、教科书——说白了就是提炼现有的人类知识。

    “但要超越这一点,我们需要利用偏见更少的数据。”Germanidis 说。Runway 认为,下一代 AI 智能不会建立在文本之上,而是来自视频和世界模型——这些模型学习世界如何运作,而不只是人类如何描述世界。

    这个区别听起来很学术,但影响一点不小。如果 Runway 赌对了,那么 AI 的下一个大突破就不是更会聊天,而是更懂物理世界。

    Runway 创始团队
    Runway 创始团队(来源:TechCrunch)

    从帮人做电影到挑战 Google

    Runway 最早是干嘛的?让每个人都能成为电影制作人。他们在 2023 年 2 月发布了第一个视频生成模型——跟今天的产品比起来那时候的东西简直拿不出手——但这已经足够让他们在好莱坞站稳脚跟。他们的工具被用来做《瞬息全宇宙》这类电影,跟 Lionsgate 和 AMC Networks 都签了协议。

    现在 Runway 估值 53 亿美元,融资总额 8.6 亿美元(今年 2 月刚拿了 3.15 亿美元,AMD Ventures 和 Nvidia 都投了),2026 年第二季度新增了 4000 万美元的年度经常性收入,员工 155 人,办公室分布在纽约、伦敦、旧金山、西雅图、特拉维夫和东京。

    但他们不想只做视频生成。去年 12 月,Runway 发布了第一个世界模型,今年还打算再推一个。世界模型是能够足够好地模拟环境的 AI 系统,可以预测环境将如何行为。短期应用包括互动娱乐、游戏和机器人训练,长期的话——Germanidis 把世界模型视为”科学基础设施”。

    “如果我们能建造一个比人类科学家更好的科学家,我们就能加速我们理解宇宙和解决问题的方式。”这是 Germanidis 的终极目标——用世界模型来加速科学发现,甚至抗衰老研究。

    Google 是最大的威胁

    Runway 的赌注能不能成还远未确定,竞争对手也不会坐着等。Google 是 Runway 最大的威胁——Google 的 Veo 模型直接跟 Runway 的视频生成业务竞争,而 Genie 世界模型则瞄准了 Runway 正在争取的同一长期领域。

    还有其他资金雄厚的对手:Luma AI 融资 9 亿美元,由 AI”教母”李飞飞创立的 World Labs 融资 12.9 亿美元。OpenAI 融资约 1750 亿美元,母公司谷歌市值 4.86 万亿美元。光看钱,Runway 没有任何优势。


    但 Runway 的创始人认为,他们缺乏硅谷”标准配方”这件事反而给了他们优势。联合 CEO Cristóbal Valenzuela 说,他们没有那种湾区的关系网,必须更灵活;没有同龄人获得的那种战争资金,这使他们免于过早产生收入的压力。

    Valenzuela 说:”规则只是他们发明的规则。这就是我们在 Runway 做事的驱动力。他们说硅谷在这里,那就是创业公司该待的地方。为什么?这些只是编造的规则。把它们全部擦掉,重新开始。”

    这话听起来很理想主义,但也不是完全没有道理。AI 音频创业公司 ElevenLabs 就是一个例子——尽管缺乏 OpenAI 和谷歌的资源和人脉,但他们在自己的基准测试上表现优于两者。Runway 也许能走出一条类似的路。

    归根结底,这场赌局还在进行中。Runway 押的是:AI 的下一个大跃迁不会来自更好的语言表达,而是来自对物理世界更深的理解。如果他们对了,Google 和 OpenAI 可能都在朝着错误的方向狂奔。

  • Runway不想跟OpenAI、Google挤语言模型赛道,它压注的是“世界模型”






    Runway不想跟OpenAI、Google挤语言模型赛道,它押注的是”世界模型”

    如果你关注AI视频生成,应该听过Runway这个名字。这家2018年成立的公司最新估值53亿美元,二季度新增4000万美元年度经常性收入,总融资8.6亿美元。

    但Runway的野心不止是做视频生成工具。他们想做的事,用联合创始人Anastasis Germanidis的话说,是构建”世界模型”——一种能让AI真正理解现实世界运作方式的基础模型。

    Runway三位联合创始人
    Runway三位联合创始人(来源:TechCrunch)

    三个纽约大学相遇的创始人

    故事起点是2016年,三位联合创始人在纽约大学ITP(交互通信项目)相识:

    • Anastasis Germanidis(希腊人),联合创始人兼联合CEO,11岁在雅典爱上编程,后来在纽约大学Tisch艺术学院学神经科学和电影
    • Cristóbal Valenzuela(智利圣地亚哥人),联合创始人兼联合CEO,本科读经济学,做过电影和软件
    • Alejandro Matamala Ortiz(智利圣地亚哥人),首席创新官,学广告出身,之前运营设计公司

    他们最初的使命是:”能不能用AI让每个人都成为电影制作人?”2023年2月发布第一个视频生成模型后,这个问题变成了:”能不能让每个人都成为优秀的电影制作人?”

    再后来,他们发现视频生成模型其实能理解世界的运作方式,于是使命再次扩展——Runway开始押注”世界模型”。


    为什么是视频,而不是语言?

    这是Runway最反共识的赌注。

    现在几乎所有主流AI实验室都在押注语言模型——用整个互联网的文本数据(留言板、社交媒体、教科书)训练模型,提炼人类已有知识。但Germanidis认为,要超越现有知识的边界,需要利用”偏见更少的数据”。

    “我们基本上受制于自己对现实的理解。”Germanidis说。

    Runway的策略是:通过视频生成摸到世界模型的边,然后再扩展到其他领域。他们已经在这么做——2025年12月发布了第一个世界模型,计划2026年再发一个,而且已经组建了机器人部门。

    钱和资源够不够?

    这是最现实的挑战。训练基础模型需要巨大的算力集群,而Runway的竞争对手是:

    • OpenAI:融资约1750亿美元,Sora视频平台已关闭(日耗约100万美元)
    • Google:母公司市值4.86万亿美元,Veo模型直接竞争
    • World Labs(李飞飞创办):融资12.9亿美元,目标同样是世界模型
    • Luma AI:融资9亿美元,方向相似

    Runway总融资8.6亿美元,在这个数字面前显得有点单薄。Workera CEO Katanforoosh的直接问题是:”没有集群,你怎么建立基础模型?我认为没有人能做到这一点。”

    “规则只是他们发明的规则。这就是我们在Runway做事的驱动力。他们说硅谷在这里,所以创业公司就得在这里。为什么?那些只是编造出来的规则。把它们全部清除,重新开始。”——Cristóbal Valenzuela


    世界模型能干什么?

    Germanidis认为世界模型是”科学基础设施”,应用场景远超视频生成:

    • 机器人技术:让机器人理解物理世界
    • 药物发现:模拟分子interactions
    • 气候建模:更准确的气候预测
    • 终极目标:生物世界模型,用于抗衰老研究

    “如果我们能建造比人类科学家更好的科学家,我们就能加速对宇宙的理解,加速解决问题的方式。”——Anastasis Germanidis

    现在做到哪一步了?

    Runway的核心产品是Gen-4.5(最新视频生成模型)。客户包括Lionsgate(狮门影业)、AMC Networks,他们参与的作品包括《瞬息全宇宙》(Everything Everywhere All At Once)。

    但视频生成只是路径,不是终点。Runway相信视频生成是通往世界模型的道路——这是一条跟OpenAI、Google、Anthropic都不同的技术路线。

    如果Runway赌对了,结果会影响从好莱坞到药物发现的无数领域。如果赌错了,他们很可能被资源更雄厚的竞争对手超越。