机器人训练数据成了AI新战场，这家公司刚拿了7000万美元

作者：

在

做语言模型的时候，你可以把整个互联网的文本喂给AI；但教机器人学会在真实世界里动手，数据就没那么好找了。这正是XDOF（念作”eks-doff”）看到的空隙——6月17日，这家公司走出隐身模式，宣布拿到Thrive Capital、a16z等机构7000万美元融资。

联合创始人Philipp Wu在UC Berkeley读博的时候就被这个问题卡住了——想训练机器人基础模型，手里却没有足够的高质量数据。他和后来成为CTO的Fred Shentu做了个叫GELLO的遥操作系统，让人类操作员可以控制机械臂生成训练数据。

这个项目后来成了机器人圈的高引论文——因为很多实验室都面临同样的瓶颈，大家开始用GELLO这类设备来收集数据。Wu意识到，这背后是个还没人认真做的生意。

“我们很早就看到语言模型竞赛里落后的后果……你不会想在这个技术领域也追太晚，物理AI是下一个前沿。”Wu对TechCrunch说。

XDOF的业务分三个层级来搭建数据管道：最顶层是针对具体部署机器人采集的遥操作数据；中间层是用GELLO这类设备收集更通用的机器人操作数据；底层则是”自我中心视角”数据——让人类戴着穿戴式传感器完成日常任务，记录第一人称视角的动作。

公司计划在全球招募和培训大批遥操作员和数据采集员。Wu说，这件事需要几十万平方英尺的仓库、成百上千台机器人，还要持续校准和维护设备——大部分AI实验室宁愿外包，也不想自己建这套东西。

XDOF和UC Berkeley的AI实验室合作，发布了目前规模最大的机器人训练数据集之一，叫ABC——包含13万条机械臂操作轨迹、300小时仿真数据和100小时评估数据。这个发布让学术界第一次能拿到这么大量的预处理好的机器人数据。

OpenAI在2021年关掉了它的机器人团队，但两周前宣布要重启这个方向。所有前沿AI实验室都在往物理世界发力，而XDOF赌的就是：谁先搞定数据管道，谁就占住了下一个赛道的入口。

评论