走进General Intuition纽约办公室的研发区,31岁的联合创始人兼CEO Pim de Witte让你看一台显示器。屏幕上有人在玩类似Fortnite的游戏。仔细一看,操控角色的不是一个真人。
“我们的agent已经连续玩了100个小时。”公司首席产品官Kent Rollins笑着说。
还没从这个画面里回过神,就听到电子脚步声逼近——一台大型四足机器人走了过来。

同一个大脑,游戏和现实都能用
de Witte说:”驱动那个游戏agent的同一个大脑,现在也在驱动这台机器人。”
机器人走到你面前,绕了一圈,继续往办公室深处走。偶尔会撞到椅子腿或者垃圾桶,像一个还没搞清楚身体怎么运作的小孩。数据工程师Josh Duplantis说,这台四足机器人只用了8分钟的真实世界数据就完成了模型微调——而且这些数据是在街上采集的,不是办公室里。
这就是General Intuition要做的事:一个能在游戏、模拟环境和真实世界之间通用的智能体模型。
我们有一个单一模型,既能响应Fortnite屏幕上的信息并采取行动,也能理解真实世界的动态,这是大语言模型做不到的。
23亿美元估值的底气
本周,公司确认完成3.2亿美元新一轮融资,估值23亿美元。本轮由Khosla Ventures领投,Jeff Bezos、Eric Schmidt、尼科·罗斯伯格均参与,DeepMind和MIT的研究人员也以个人身份跟投。General Intuition累计融资已达4.54亿美元。
de Witte的上一家公司叫Medal,是一个游戏视频剪辑分享平台。上面有数百亿小时的游戏录像——但这还不是最关键的。Medal的录像里带有操作记录:玩家在什么时间点按了什么键。de Witte认为,这种”动作标签”才是训练空间推理能力的关键数据,光看视频是不够的。
“这是一个单一模型,既能响应Fortnite屏幕上的信息并采取行动,也能理解真实世界的动态,这是大语言模型做不到的。”de Witte说。
世界模型是”健身房”
公司有一个”世界模型”,是一个逐帧生成的模拟环境(不是传统游戏引擎渲染的)。在这个环境里测试时,agent不会穿墙——它从数百亿小时的游戏画面里学会了墙是墙、梯子是用来爬的。
这个世界模型不是最终产品,而是训练环境(公司内部叫它”健身房”)。General Intuition真正想卖的是智能体模型本身。
大部分融资将用于扩大算力。General Intuition跟CoreWeave签了合作协议,重点放在下一版模型的预训练上。到今年夏末,他们的API会对更多开发者开放。
欧洲人的AI伦理
Khosla Ventures的Vinod Khosla说,他押注de Witte的愿景。”在大语言模型里,推理能力的出现是一个量子跃迁。在世界模型里,量子跃迁是AI直觉能力的出现。游戏里的人类动作和反应数据,是这种直觉出现的关键。”
de Witte是荷兰人,团队很大一部分是欧洲人。他对硅谷把AI军事化的倾向保持距离,明确说不会把agent用于伤害人类的目的。”如果说我跑出来说我们要做致命自主武器,你觉得其他国家会怎么做?”他说。
他还做了一个叫Nerve的平台,让游戏玩家通过数据标注、机器人远程操控等任务赚钱。Medal的用户恰好是最容易被AI冲击的一代人,de Witte想让他们在接下来的事情里有份。
从游戏画面到真实世界,这条路能不能在规模上成立,目前还没有人完全回答。但General Intuition已经把筹码压上去了。
发表回复