过去一年,AI视频生成赛道卷得热闹,Sora、Runway、Pika们轮流登场,画面越做越精致。但用多了你会发现一个共性问题:它们都是「单程票」——你写一段描述,模型渲染出一段视频,生成完就完了,你只能看,不能跟画面里的世界互动。

从「生成视频」到「生成世界」
阿里 ATH 团队本周发布的 HappyOyster 1.0(快乐生蚝),做的不是一段好看的视频,而是一个完整可演绎、可探索、可互动的数字世界。画面生成出来的那一刻,体验才刚开始——你可以一边看一边下指令,世界实时反馈并持续演化。
它主打两大模式。Adventure(世界探索)让你亲自下场当主角,用键盘操控角色在 AI 生成的世界里移动、跳跃、攻击;Directing(实时导演)让你站在世界之上当导演,用自然语言描述剧情,世界实时推演你想要的故事。
“以前你是观众,现在你成了世界的主人。”
世界模型到底特殊在哪?
要理解 HappyOyster 的突破,得先搞清楚「文生视频」和「世界模型」的根本差异。文生视频做的是文本→视频的单向条件映射,你输入一段描述,模型一次性离线渲染出一段固定的像素序列,生成完就结束了。
而世界模型学的则是当前状态 + 用户动作 → 下一个状态的转移规律。这就要求模型同时具备三重能力:物理规律的隐式建模、长程因果链路的追踪、外部干预的即时响应。画面里有什么,你就能玩什么——有马车自动解锁骑马,有汽车触发鸣笛和车灯。
- 闭环世界状态建模:把世界状态压缩成「潜状态摘要」(Latent State),在生成链路上递归传递,支撑长程一致性。暂停、回溯、分支叙事,本质上都是在某个时间点把「摘要纸条」存一份副本。
- 内生一致性:给每个角色、物品、场景元素都发了一张「身份卡」,不管镜头怎么切、角色怎么转身,模型每次生成新画面时都会对着身份卡检查,保证角色不变样不变形。
- 开放因果动作空间:把动作指令和自然语言放进同一个语义接口,你说「骑上那匹马」,模型自己推演出上马的完整动作序列和马开始跑的物理反馈。
- 长时序音视频协同:音频和视频在同一个世界状态下联合解码生成,不是先出画面再配音,脚步声跟着你走、攻击音效跟着动作来。
一旦世界可交互,哪些行业会被改变?
游戏行业可能是最快吃到螃蟹的。不用搭建庞大的美术资产库、配置复杂的物理引擎,给 HappyOyster 1.0 丢一张概念图,很快就能跑出一个具备物理反馈和 NPC 交互的可玩场景。剧情可以分叉出十条故事线,观众自己选走向——这可能催生一个全新的互动内容业态。
文旅景区做虚拟漫游、博物馆做沉浸式历史还原、教育领域做可交互的历史场景重现……这些场景都可以用世界模型给用户带来全新的沉浸式体验。阿里这次不只是做产品,还在和南京大学共建世界模型评测基准——承担起定义赛道标准的责任。
现在 HappyOyster 1.0 已经正式上线,用手机号注册就能玩。API 也计划在近期开放。以后谁还满足于只看视频啊——大家都想亲自进到世界里去。
发表回复