
你有没有想过,你随手发在YouTube或Spotify上的一首歌,会不会悄无声息地被人拿去训练AI了?
这个念头听着像阴谋论,但它真的发生了。《大西洋月刊》的调查记者Alex Reisner最近做了一件让整个AI音乐圈睡不着觉的事——他把四个被用于训练AI模型的音乐数据集,原原本本地做成了可公开搜索的数据库,任何人都能上去查自己的作品是不是在里面。
1200万首歌,免费摆在互联网上
这四个数据集的规模大到离谱。两个最大的分别包含1200万和900万首曲目,剩下两个”小”的也有10万首以上。这些数据集在互联网上可以被自由下载,已经被下载了数千次。
Google和Stability AI都曾在研究论文中确认,他们用了其中的数据集来训练自己的AI音乐模型。换句话说,这些”免费”的音乐,已经变成了Suno、Google Lyria等AI音乐生成器的”教材”。
有意思的是,有些数据集的来源(比如Free Music Archive)允许个人免费收听,但商业使用需要授权。AI公司拿去训练商业模型,版权归属是个大问题。
Lady Gaga、Radiohead,一个都跑不了
在这四个数据集里能搜到名字的音乐人,跨度简直离谱——流行天后Lady Gaga、电子音乐鬼才Aphex Twin、摇滚天团Radiohead和Wu-Tang Clan、摇滚教父Bruce Springsteen,甚至实验音乐作曲家Hainbach,统统在内。
更值得玩味的是这些数据是怎么被”拿”到的。Reisner发现,其中三个数据集本质上是一堆YouTube和Spotify的链接列表。AI开发者用自动化工具批量下载音频,有些工具还能绕过登录、跳过广告——这些操作明显违反了平台的服务条款。
也就是说,音乐人被”投喂”给AI的过程,本身可能就踩在了灰色地带甚至违法的边缘。
《大西洋月刊》为什么较这个真?
《大西洋月刊》专门开辟了一个叫”AI Watchdog”的栏目,系统性地追踪AI训练数据的来源。这次把音乐数据集公开可查,等于是把AI公司的”锅底”彻底掀了——以后哪家公司用了谁的音乐训练模型,版权方一点进去就能找到证据。
这个搜索库不只包含音乐,还有用于训练AI的书籍和其他媒体。对版权持有者来说,这是一把迟来的”知情权”的钥匙。
目前AI训练数据的版权诉讼已经在全球遍地开花,这次《大西洋月刊》的动作,相当于是给这些诉讼又添了一把柴火。音乐人们终于有一个地方可以去证实:没错,我的歌确实被拿去训练AI了。
发表回复