一家叫Shift的AI创业公司最近在纽约搞活动:免费帮你打扫家,但条件是——他们要拍下整个清洁过程。
这听起来像是那种”条件优厚到让人起疑”的买卖,实际上背后有个非常具体的目的:收集人类做家务的视频数据,用来训练未来的家用机器人。
训练机器人比训练ChatGPT难多了
文字和图像可以从互联网上大规模抓取,但物理世界的动作数据没那么好弄。教一个机器人叠毛巾、捡苹果、倒水,这些对人类来说轻而易举的事情,对机器人来说极其难编码。
机器人要理解的不是文字,而是空间、力度、摩擦力、物体形状、光线变化——这些东西人类本能就会,但要把它们变成机器能读懂的数据,成本高得吓人。
不止一家公司在这么做
印度有个家政平台叫Pronto,也被曝出在客户授权后采集烹饪、清洁、洗衣等场景的视频,用来训练AI。这件事在印度市场引发了不少争议,竞争对手赶紧出来表态说自己绝对没在客户家里装摄像头。
还有更”刻意”的做法:一些公司在专门搭建的场地里,让工人一遍又一遍地重复同样的动作,摄像头全方位记录。这种”数据农场”产出的素材质量高、场景可控,缺点是很贵。
数据瓶颈倒逼出各种创意
高质量的物理世界数据是开发物理AI的最大瓶颈。文本、图片、视频可以从网上爬,但要让机器人学会在真实人家环境中干活,就得有真实家庭环境的数据。
所以出现了各种”用服务换数据”的模式:Shift免费清洁换视频、Human Archive给零工发相机帽采集第一视角数据、一些公司直接把产品先卖出去,再从用户使用中收集数据迭代算法。
隐私问题迟早要爆发
用免费服务换数据这件事本身并不新鲜——会员卡、cookies、行车记录仪、保险APP都在做。但家务场景涉及的是你家里面最私密的空间,摄像头拍到的不只是”清洁动作”,还有你的生活方式、家庭布局、个人隐私。
目前这类公司的做法是让用户”选择加入”,但问题是:有多少人真的仔细读了那份授权协议?等家用机器人真正上市的时候,这些数据是怎么被使用、会不会被转卖,都会成为大问题。
发表回复