标签: AI数据

AI训练数据供应相关

  • 你家打扫卫生的画面,正在被AI公司花钱买走

    本周有一家叫Shift的AI训练初创公司宣布,要免费帮纽约人打扫房子,后续还打算把这项服务推广到伦敦等其他城市。我看着自己乱糟糟的公寓,完全能理解这个服务的吸引力。

    但天下没有免费的午餐,总有条件。

    AI机器人训练数据收集
    AI公司正在想方设法收集真实世界的物理数据丨The Verge

    你家的清洁过程,就是机器人的”教科书”

    作为免费打扫的交换,Shift要求获得清洁人员工作时的全部录像:刷碗、擦台面、擦桌子、拖地——所有我们愿意外包的琐碎家务都要拍下来。而这些录像,正是机器人公司竞相训练机器完成家务、最终向消费者售卖家用机器人的核心数据。

    这比听起来要难得多。和近年来爆发式增长的聊天机器人、图像生成器这些纯数字AI工具不同,机器人需要跟物理世界打交道:要理解空间、运动、力量、摩擦力,还要应对奇怪的形状和材质、尴尬的灯光条件,以及人类本能就能掌握的其他所有物理常识。这就是为什么叠衣服、拿苹果、倒水这些对人类来说很简单的事,对机器人专家来说却一直难以实现。

    “不像聊天机器人、图像生成器和其他近年来爆发式增长的AI工具,机器人必须和物理世界打交道。这意味着要理解空间、运动、力、摩擦力、奇怪的形状和材质、糟糕的照明,以及人类本能就能掌握的所有其他东西。”

    不止Shift一家在这么做

    在印度,近期有报道披露,家政服务平台Pronto一直把客户的家作为AI训练素材的来源,拍摄做饭、打扫、洗衣服等家务场景。Pronto表示只有在客户明确同意的情况下才会拍摄,目前还不清楚客户能获得什么回报(除了拍摄的素材副本之外)。但这一做法还是在市场上引发了强烈反对,竞争对手的初创公司纷纷表态,称自己从未在客户家中拍摄用于训练AI的素材,也没有相关计划。

    其他公司则专注于扩大数据收集的规模。比如硅谷的Human Archive公司,希望和Pronto这类企业合作,让零工工作者戴上并不时尚的摄像头帽子记录自己的活动。这种帽子可以从佩戴者的视角收集素材,正是机器人公司需要的”自我中心”视角数据,用来训练机器理解人类如何在物理空间中活动。

    而Shift也直接面向消费者,声称已经向15个国家的数万人支付报酬,让他们通过自己的应用记录日常活动。


    “数据农场”正在兴起

    还有一些公司完全跳过”有用的工作”,直接付费让工人反复完成相同的物理任务,同时用摄像头和传感器捕捉每一个动作。这类”staged data farms”(模拟数据农场)专门把叠毛巾、拿杯子、搬箱子等重复体力劳动转化为有价值的AI训练素材——其价值高到足以支撑公司付费生产这些内容。

    还有一部分数据来自已经在现实世界部署的机器人。尽管宣传得天花乱坠,但真正的全自动化还遥遥无期(这也是需要大量数据的原因),企业还是急于把产品推向市场。他们会用客户家中的使用数据来优化产品,很多公司还会在机器人卡住的时候安排远程工作人员介入,这些介入过程的数据也会被用于训练。

    用数据换免费服务,这个交易并不新鲜

    当然,用有价值的东西交换数据的做法早就不是新鲜事了。多年来企业一直用折扣、便利、免费服务换取用户数据,从会员积分卡、浏览器Cookie,到行车记录仪、监测驾驶行为的保险APP,还有永远在播广告的智能电视,都是如此。

    现在的新变化是企业愿意付费收集的数据类型。目前来看,这意味着你可能会让一个戴着摄像帽的人免费帮你打扫家里,最终目的是让企业未来能卖给你一个机器人,代替人类做这些家务。

    • Shift:免费清洁换录像,已覆盖15个国家
    • Pronto(印度):家政服务中拍摄家务场景,引发争议
    • Human Archive:给零工戴摄像帽,收集第一人称视角数据
    • 模拟数据农场:付费让工人重复完成叠毛巾、搬箱子等动作
  • 这家公司免费帮你打扫房间,条件是记录全过程用来训练机器人

    AI训练数据初创公司Shift最近在社交媒体上宣布了一个听起来有点奇怪的优惠:他们将免费为用户提供家庭清洁服务,条件是允许设备记录清洁人员的工作过程,以此收集高质量的机器人训练数据。

    该公司的”魔法帽”计划本质上是在用未来的机器人能力,换取今天的真实世界动作数据。清洁人员戴着配有摄像头的帽子工作,记录他们如何擦洗、吸尘、除尘、整理和清洗——这些都是未来家庭服务机器人需要掌握的核心技能。

    “你得到一间一尘不染的公寓。我们得到训练数据。双赢。”——Shift官方网站

    魔法帽里有什么?

    清洁人员戴着一顶看起来有点尴尬的白色帽子——官方称之为”魔法帽”——里面藏着一台摄像头,从清洁人员的第一视角捕捉工作画面。

    Shift清洁人员戴着魔法帽工作
    Shift的”魔法帽”从清洁人员第一视角记录工作过程(图源:The Verge)

    当然,让别人的摄像头进到你家里,这本身就是你得”支付”的代价。Shift在官网上说客户的”隐私得到充分保护”,敏感细节(如姓名、面部、屏幕和个人信息、身份证)在用于AI训练之前会被模糊化和匿名化处理。


    越脏越好?

    Shift在宣传视频中说:”今天清洁的每一间房子,都为明天能自己清洁的房子打下基础。”

    有意思的是,该公司表示“更具挑战性的清洁环境”可能特别有用。换句话说,你家越脏乱,对训练机器人来说反而越有价值。当然,清洁人员”可以拒绝执行任何他们感到不舒服的具体任务”。

    不只是清洁

    清洁可能只是开始。Shift的视频显示,该公司最终计划扩展到管道维修、烹饪和建筑等其他领域。

    Shift表示,它已经向15个国家的数万人支付报酬,让他们通过应用程序记录自己的活动。这个市场正在增长——用于训练AI系统和机器人的人类任务录像,正成为AI数据竞赛中的稀缺资源。


    目前只在纽约,很快扩展到更多城市

    这项免费清洁服务目前仅在纽约提供。但联合CEO兼联合创始人Bercan Kilic表示,很快将在旧金山、伦敦、苏黎世和慕尼黑推出。

    免费清洁只是”限时”优惠,但这个模式其实触及了一个更大的趋势:AI公司越来越愿意用真实世界的服务,来换取训练下一代机器人所需的高质量数据。

    • 清洁人员戴”魔法帽”第一视角记录工作过程
    • 隐私保护:敏感信息在训练前被模糊化和匿名化
    • 目前仅在纽约,即将扩展至旧金山/伦敦/苏黎世/慕尼黑
    • Shift已在15个国家拥有数万名数据贡献者
    • 未来计划扩展至管道/烹饪/建筑等更多家庭场景
  • 给机器人当老师?印度零工戴帽子录视频,每小时赚1美元

    过去几年,印度的外卖市场疯了一样增长,Zomato和Swiggy都上了市,云厨房数量也在猛增。与此同时,做家庭服务的初创公司也越来越受欢迎,比如按需家政平台Urban Company、Snabbit和Pronto。

    就在这种背景下,一家叫Human Archive的硅谷初创公司冒了出来。他们的想法听起来有点疯狂——让这些零工工人戴上带摄像头的特制帽子,把日常工作的第一人称视角视频收集起来,用来训练机器人。

    “物理AI和机器人研发的核心瓶颈,是缺乏展示人类执行日常工作的高质量、真实世界训练数据。印度蓬勃发展的零工经济,正是这种尚未被开发、可规模化获取的数据来源。”

    820万美元入账,投资人阵容豪华

    周二,Human Archive宣布拿到一笔820万美元的融资。投资方名单读起来像AI圈的名人录——Wing Venture Capital、NVP Capital、Y Combinator,还有来自OpenAI、英伟达、谷歌、Mercor、BAIR、SAIL、Brad Bao和Meta的天使投资人。

    四个创始人全是加州大学伯克利分校和斯坦福的学生——Samay Maini、Rushil Agarwal、Shloke Patel和Raj Patel(后两人是表兄弟,Raj Patel担任CEO)。四个人在机器人、硬件和触觉数据领域都有研究背景。

    帽子、手套、动作捕捉服,全副武装

    一开始,Human Archive用临时装置或现成设备采集数据。现在,他们已经开发了能够协同工作的定制硬件,可以同步收集不同类型的数据。目前已经在多个地点部署了1000多个活跃的头戴设备,累计部署超过50种不同设备,可以同步采集7种不同模态的数据。

    他们的逻辑是:光有视频数据不够,得把视频和其他传感器数据配对,价值才能大幅提升。所以他们在做触觉手套、全身动作捕捉服、腕部摄像头——把RGB-D(实时配对的彩色图像和深度信息)和力反馈、全身动作、腕部视角这些数据同步采集起来,然后卖给AI实验室。


    碰壁:头部家政公司说”不”

    虽然Human Archive在跟多家公司谈合作,但现实给了他们一记耳光。包括Pronto和Urban Company在内的多家印度家政服务头部公司,都拒绝了合作。

    事情在上周末闹到了公开层面。印度媒体Entrackr报道称Pronto正在积极寻求合作关系,以收集工人数据用于机器人训练;而Snabbit此前曾与Human Archive进行过早期讨论,但项目最终告吹。Urban Company的CEO Abhiraj Singh Bhal在X平台上直接回应称,公司不会参与此类安排。

    Raj Patel随后回击称,Urban Company很快将被迫重新考虑,否则将面临客户流失、失去相关性的风险。联合创始人Rushil Agarwal更直白——他发帖称Pronto创始人Anjali Sardana听到他提出数据合作想法时,曾经嘲笑他”愚蠢”。

    工人每小时拿1美元,隐私问题谁来管

    Human Archive向参与数据收集的工人支付每小时1美元的基础报酬。《经济时报》的报告显示,其他公司支付的报酬是每小时250卢比到400卢比(约2.63到4.20美元)。Patel表示竞争对手的报酬比Human Archive高,但其在印度的实地存在使其能够保持较低的薪酬水平。

    比工资更棘手的是隐私问题。目前尚不清楚Human Archive向工人提供了哪些关于其镜头使用方式的信息。该公司表示,其商业合同符合印度《数字个人数据保护法(DPDP法)》的要求,会显示隐私政策通知,以及详细说明数据收集目的和处理方式的同意信息。公司还表示所有数据都是匿名的,并且会对录像中的人脸进行模糊处理。

    上周,Moneycontrol报道称,印度电子和信息技术部正在审查通过家政服务人员收集第一人称数据的初创公司的同意机制和数据收集实践。监管的风,已经开始吹了。

  • 这家公司帮70万创作者,把数据卖给AI实验室

    这家公司帮70万创作者,把数据卖给AI实验室

    过去几年里,创意市场和平台圈发现了一件事:他们手上握着的数据,是一座金矿。这些数据可以用来训练自己的AI模型,也可以授权给其他AI实验室换钱。

    Wirestock选了后者。

    Wirestock团队
    Wirestock团队(来源:TechCrunch)

    这家公司原本的业务是帮摄影师在Shutterstock等图库平台上分发和销售作品。2023年,他们转型成了数据供应商,现在向AI实验室提供图像、视频、设计资产、游戏和3D内容等数据集。

    “一开始,我们的很多交易只是卖现成的东西,比如我们现有的图库。但后来变成了大量定制内容数据的需求,这给创作者带来了新机会,平台就这样起飞了。”——Wirestock联合创始人兼CEO Mikayel Khachatryan

    70万创作者,4000万美元年营收

    Wirestock说平台已经签约了超过70万名艺术家和设计师,他们为数据收集完成各种任务,类似Fiverr平台上的自由职业者。

    公司周四宣布,已完成2300万美元的A轮融资,用于建设新的数据供应业务。这轮融资由Nava Ventures领投,谢丽尔·桑德伯格联合创立的SBVP、Formula VC、I2BF Ventures跟投。

    Khachatryan表示,Wirestock目前为6家最大的基础模型制造商提供多模态数据,但拒绝透露具体名称。他提到公司目前的年营收运行率为4000万美元,迄今已向贡献者支付了1500万美元。


    AI数据供应链的生意

    随着AI实验室竞相改进模型,对数据供应服务的需求极高。像Surge、Scale AI、Mercor这样的公司,凭借对不同类型数据集的需求,几乎在一夜之间建立了价值数百亿美元的业务。

    Wirestock想专注于为助力创意用例的模型提供数据,比如图像和视频生成。公司也在探索音频和音乐等其他模态。

    Nava Ventures创始人Freddie Martignetti说,他的基金一直在寻找在数据采购和精炼方面创新的初创公司。”我认为Wirestock对基础模型和超大规模计算服务商需要什么多模态数据有深刻理解,以创建更像人类的系统。我们论点的基石是,多模态数据将变得越来越重要,不仅是为了创建图像或视频,而是让模型完成现实世界的任务。”

    Wirestock目前有60名员工,将利用新资金招聘研发、工程和产品岗位人员。公司还在开发供AI实验室协作的企业级数据集软件。