机器人训练数据成了AI新战场，这家公司刚拿了7000万美元

作者：

在

训练一个大语言模型，你只需要扒下整个互联网的文本就行。但训练一个能叠衣服、拿杯子的机器人？那可没现成的数据海洋给你捞。

这就是XDOF看到的机会。这家今天刚从隐身模式走出来的初创公司，刚拿了7000万美元融资，投资方包括Thrive Capital、Spark Capital、a16z、Lux和WndrCo。他们的赌注很简单：AI的下一个瓶颈不是模型也不是芯片，而是教机器人理解物理世界的数据反馈回路。

语言模型可以啃下整个互联网的文本，因为文字是现成的。但机器人需要的数据得捕捉物理交互——手怎么抓、力怎么控、物体怎么响应。这类数据几乎不存在。

YouTube视频？画质太低，而且你不知道视频里的人到底用了多少力、手指是什么角度。众包工人拍的片段？同样的问题，而且很难和真实的物理参数对上号。

XDOF的联合创始人兼CEO Philipp Wu在UC Berkeley读博时就撞上了这堵墙。他的研究方向是让机器人从大规模数据集里学习技能，但问题来了——根本没有大规模数据。

“这是一个鸡生蛋、蛋生鸡的问题——我们得先实际收集数据，才能开始问怎么为机器人训练基础模型。”

Wu和后来的联合创始人、CTO Fred Shentu搞出了一个叫GELLO的低成本遥操作系统，让人类操作员可以控制机械臂来生成训练数据。这个项目后来成了一篇在机器人圈很有影响力的论文，因为很多实验室都有同样的数据瓶颈，开始用这类设备来采集数据。

看到机会后，Wu、Shentu和第三位联合创始人、COO Nemo Jin在2024年10月创立了XDOF，专门为搞机器人模型的公司提供数据生态系统。公司现在有约60名员工，已经在对口20家客户，包括几家前沿AI实验室（名字不能透露）。

Wu说得很直接：”所有顶尖实验室都在追机器人。我们已经看到在语言模型竞赛中稍微落后的后果……你不想在物理AI成为下一个前沿时被甩在后面。”

XDOF的计划是覆盖一个数据金字塔的三个层级。最值钱的一层是在实际部署的机器人上采集的遥操作数据；第二层是用遥操作机器人采集更通用的数据（就像GELLO那样）；第三层是”以自我为中心”的数据——人类戴穿戴式传感器完成日常任务时采集的数据，XDOF计划自己造这种传感器。

选什么摄像头会直接影响数据质量，进而影响手 tracking 算法的表现。Wu说：”如果你一开始不把硬件设计好，你采集的数据可能会有你没预料到的特定问题。”

这个问题很自然：为什么OpenAI、Google DeepMind这些巨头不自己建数据管道？Wu的回答是规模和专注度：”你需要一个几十万平方英尺的仓库，里面放上几百台机器人。你还得维护这些机器人、校准它们的物理参数、 properly培训操作员。”

这种重资产、劳动密集的运营模式，大多数AI实验室宁愿外包。而这正是XDOF押注的市场。

公司名字XDOF是个双关，既指机器人学里的”自由度”（degrees of freedom，描述机器人能独立运动的方向数），也表达了他们的野心：”任意自由度，无限自由度。”

XDOF已经和UC Berkeley的AI研究实验室合作，发布了他们声称的有史以来最大的高质量机器人训练数据集合，叫ABC。里面有13万条机器人操作数据轨迹、300小时仿真数据和100小时评估数据。这种规模的预训练数据以前学术界根本拿不到。

团队已经用这些数据训练机器人做折T恤、压扁纸箱、把AirPods塞进盒子这类基准任务。接下来，物理AI的数据军备竞赛才刚刚开始。

评论