AI 视频进入「可玩」阶段：阿里这套世界模型，把观众变成了主角

作者：

在

过去一年，AI视频生成赛道卷得热闹，Sora、Runway、Pika们轮流登场，画面越做越精致。但用多了你会发现一个共性问题：它们都是「单程票」——你写一段描述，模型渲染出一段视频，生成完就完了，你只能看，不能跟画面里的世界互动。

阿里 ATH 团队本周发布的 HappyOyster 1.0（快乐生蚝），做的不是一段好看的视频，而是一个完整可演绎、可探索、可互动的数字世界。画面生成出来的那一刻，体验才刚开始——你可以一边看一边下指令，世界实时反馈并持续演化。

它主打两大模式。Adventure（世界探索）让你亲自下场当主角，用键盘操控角色在 AI 生成的世界里移动、跳跃、攻击；Directing（实时导演）让你站在世界之上当导演，用自然语言描述剧情，世界实时推演你想要的故事。

“以前你是观众，现在你成了世界的主人。”

要理解 HappyOyster 的突破，得先搞清楚「文生视频」和「世界模型」的根本差异。文生视频做的是文本→视频的单向条件映射，你输入一段描述，模型一次性离线渲染出一段固定的像素序列，生成完就结束了。

而世界模型学的则是当前状态 + 用户动作 → 下一个状态的转移规律。这就要求模型同时具备三重能力：物理规律的隐式建模、长程因果链路的追踪、外部干预的即时响应。画面里有什么，你就能玩什么——有马车自动解锁骑马，有汽车触发鸣笛和车灯。

闭环世界状态建模：把世界状态压缩成「潜状态摘要」（Latent State），在生成链路上递归传递，支撑长程一致性。暂停、回溯、分支叙事，本质上都是在某个时间点把「摘要纸条」存一份副本。
内生一致性：给每个角色、物品、场景元素都发了一张「身份卡」，不管镜头怎么切、角色怎么转身，模型每次生成新画面时都会对着身份卡检查，保证角色不变样不变形。
开放因果动作空间：把动作指令和自然语言放进同一个语义接口，你说「骑上那匹马」，模型自己推演出上马的完整动作序列和马开始跑的物理反馈。
长时序音视频协同：音频和视频在同一个世界状态下联合解码生成，不是先出画面再配音，脚步声跟着你走、攻击音效跟着动作来。

游戏行业可能是最快吃到螃蟹的。不用搭建庞大的美术资产库、配置复杂的物理引擎，给 HappyOyster 1.0 丢一张概念图，很快就能跑出一个具备物理反馈和 NPC 交互的可玩场景。剧情可以分叉出十条故事线，观众自己选走向——这可能催生一个全新的互动内容业态。

文旅景区做虚拟漫游、博物馆做沉浸式历史还原、教育领域做可交互的历史场景重现……这些场景都可以用世界模型给用户带来全新的沉浸式体验。阿里这次不只是做产品，还在和南京大学共建世界模型评测基准——承担起定义赛道标准的责任。

现在 HappyOyster 1.0 已经正式上线，用手机号注册就能玩。API 也计划在近期开放。以后谁还满足于只看视频啊——大家都想亲自进到世界里去。

📎 原文来源：量子位 | 阿里 ATH 团队发布 HappyOyster 1.0

评论