机器人训练数据成了AI新战场,这家公司刚拿了7000万美元

机器人训练数据收集
机器人训练数据收集需要大量物理交互场景的标注

训练一个大语言模型,你只需要扒下整个互联网的文本就行。但训练一个能叠衣服、拿杯子的机器人?那可没现成的数据海洋给你捞。

这就是XDOF看到的机会。这家今天刚从隐身模式走出来的初创公司,刚拿了7000万美元融资,投资方包括Thrive Capital、Spark Capital、a16z、Lux和WndrCo。他们的赌注很简单:AI的下一个瓶颈不是模型也不是芯片,而是教机器人理解物理世界的数据反馈回路。

为什么机器人数据这么难搞

语言模型可以啃下整个互联网的文本,因为文字是现成的。但机器人需要的数据得捕捉物理交互——手怎么抓、力怎么控、物体怎么响应。这类数据几乎不存在。

YouTube视频?画质太低,而且你不知道视频里的人到底用了多少力、手指是什么角度。众包工人拍的片段?同样的问题,而且很难和真实的物理参数对上号。

XDOF的联合创始人兼CEO Philipp Wu在UC Berkeley读博时就撞上了这堵墙。他的研究方向是让机器人从大规模数据集里学习技能,但问题来了——根本没有大规模数据。

“这是一个鸡生蛋、蛋生鸡的问题——我们得先实际收集数据,才能开始问怎么为机器人训练基础模型。”

从学术论文到商业项目

Wu和后来的联合创始人、CTO Fred Shentu搞出了一个叫GELLO的低成本遥操作系统,让人类操作员可以控制机械臂来生成训练数据。这个项目后来成了一篇在机器人圈很有影响力的论文,因为很多实验室都有同样的数据瓶颈,开始用这类设备来采集数据。

看到机会后,Wu、Shentu和第三位联合创始人、COO Nemo Jin在2024年10月创立了XDOF,专门为搞机器人模型的公司提供数据生态系统。公司现在有约60名员工,已经在对口20家客户,包括几家前沿AI实验室(名字不能透露)。

Wu说得很直接:”所有顶尖实验室都在追机器人。我们已经看到在语言模型竞赛中稍微落后的后果……你不想在物理AI成为下一个前沿时被甩在后面。”

数据金字塔的三层结构

XDOF的计划是覆盖一个数据金字塔的三个层级。最值钱的一层是在实际部署的机器人上采集的遥操作数据;第二层是用遥操作机器人采集更通用的数据(就像GELLO那样);第三层是”以自我为中心”的数据——人类戴穿戴式传感器完成日常任务时采集的数据,XDOF计划自己造这种传感器。

选什么摄像头会直接影响数据质量,进而影响手 tracking 算法的表现。Wu说:”如果你一开始不把硬件设计好,你采集的数据可能会有你没预料到的特定问题。”

为什么大实验室不自己搞

这个问题很自然:为什么OpenAI、Google DeepMind这些巨头不自己建数据管道?Wu的回答是规模和专注度:”你需要一个几十万平方英尺的仓库,里面放上几百台机器人。你还得维护这些机器人、校准它们的物理参数、 properly培训操作员。”

这种重资产、劳动密集的运营模式,大多数AI实验室宁愿外包。而这正是XDOF押注的市场。

公司名字XDOF是个双关,既指机器人学里的”自由度”(degrees of freedom,描述机器人能独立运动的方向数),也表达了他们的野心:”任意自由度,无限自由度。”


XDOF已经和UC Berkeley的AI研究实验室合作,发布了他们声称的有史以来最大的高质量机器人训练数据集合,叫ABC。里面有13万条机器人操作数据轨迹、300小时仿真数据和100小时评估数据。这种规模的预训练数据以前学术界根本拿不到。

团队已经用这些数据训练机器人做折T恤、压扁纸箱、把AirPods塞进盒子这类基准任务。接下来,物理AI的数据军备竞赛才刚刚开始。

📎 原文来源:TechCrunch – Collecting robot training data is dirty, unglamorous work

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注