机器人训练数据成了AI新战场,这家公司刚拿了7000万美元

机器人训练数据成了AI新战场,这家公司刚拿了7000万美元

做语言模型的时候,你可以把整个互联网的文本喂给AI;但教机器人学会在真实世界里动手,数据就没那么好找了。这正是XDOF(念作”eks-doff”)看到的空隙——6月17日,这家公司走出隐身模式,宣布拿到Thrive Capital、a16z等机构7000万美元融资。

机器人训练数据概念图
机器人训练需要大量真实物理交互数据

创始人的亲身踩坑经历

联合创始人Philipp Wu在UC Berkeley读博的时候就被这个问题卡住了——想训练机器人基础模型,手里却没有足够的高质量数据。他和后来成为CTO的Fred Shentu做了个叫GELLO的遥操作系统,让人类操作员可以控制机械臂生成训练数据。

这个项目后来成了机器人圈的高引论文——因为很多实验室都面临同样的瓶颈,大家开始用GELLO这类设备来收集数据。Wu意识到,这背后是个还没人认真做的生意。

“我们很早就看到语言模型竞赛里落后的后果……你不会想在这个技术领域也追太晚,物理AI是下一个前沿。”Wu对TechCrunch说。

三层数据金字塔

XDOF的业务分三个层级来搭建数据管道:最顶层是针对具体部署机器人采集的遥操作数据;中间层是用GELLO这类设备收集更通用的机器人操作数据;底层则是”自我中心视角”数据——让人类戴着穿戴式传感器完成日常任务,记录第一人称视角的动作。

公司计划在全球招募和培训大批遥操作员和数据采集员。Wu说,这件事需要几十万平方英尺的仓库、成百上千台机器人,还要持续校准和维护设备——大部分AI实验室宁愿外包,也不想自己建这套东西。

和学术界一起开放数据

XDOF和UC Berkeley的AI实验室合作,发布了目前规模最大的机器人训练数据集之一,叫ABC——包含13万条机械臂操作轨迹、300小时仿真数据和100小时评估数据。这个发布让学术界第一次能拿到这么大量的预处理好的机器人数据。

OpenAI在2021年关掉了它的机器人团队,但两周前宣布要重启这个方向。所有前沿AI实验室都在往物理世界发力,而XDOF赌的就是:谁先搞定数据管道,谁就占住了下一个赛道的入口。


📎 原文来源:TechCrunch · Collecting robot training data is dirty, unglamorous work

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注