《大西洋月刊》把AI音乐训练的“底牌”掀了

作者：

在

你有没有想过，你随手发在YouTube或Spotify上的一首歌，会不会悄无声息地被人拿去训练AI了？

这个念头听着像阴谋论，但它真的发生了。《大西洋月刊》的调查记者Alex Reisner最近做了一件让整个AI音乐圈睡不着觉的事——他把四个被用于训练AI模型的音乐数据集，原原本本地做成了可公开搜索的数据库，任何人都能上去查自己的作品是不是在里面。

这四个数据集的规模大到离谱。两个最大的分别包含1200万和900万首曲目，剩下两个”小”的也有10万首以上。这些数据集在互联网上可以被自由下载，已经被下载了数千次。

Google和Stability AI都曾在研究论文中确认，他们用了其中的数据集来训练自己的AI音乐模型。换句话说，这些”免费”的音乐，已经变成了Suno、Google Lyria等AI音乐生成器的”教材”。

有意思的是，有些数据集的来源（比如Free Music Archive）允许个人免费收听，但商业使用需要授权。AI公司拿去训练商业模型，版权归属是个大问题。

在这四个数据集里能搜到名字的音乐人，跨度简直离谱——流行天后Lady Gaga、电子音乐鬼才Aphex Twin、摇滚天团Radiohead和Wu-Tang Clan、摇滚教父Bruce Springsteen，甚至实验音乐作曲家Hainbach，统统在内。

更值得玩味的是这些数据是怎么被”拿”到的。Reisner发现，其中三个数据集本质上是一堆YouTube和Spotify的链接列表。AI开发者用自动化工具批量下载音频，有些工具还能绕过登录、跳过广告——这些操作明显违反了平台的服务条款。

也就是说，音乐人被”投喂”给AI的过程，本身可能就踩在了灰色地带甚至违法的边缘。

《大西洋月刊》专门开辟了一个叫”AI Watchdog”的栏目，系统性地追踪AI训练数据的来源。这次把音乐数据集公开可查，等于是把AI公司的”锅底”彻底掀了——以后哪家公司用了谁的音乐训练模型，版权方一点进去就能找到证据。

这个搜索库不只包含音乐，还有用于训练AI的书籍和其他媒体。对版权持有者来说，这是一把迟来的”知情权”的钥匙。

目前AI训练数据的版权诉讼已经在全球遍地开花，这次《大西洋月刊》的动作，相当于是给这些诉讼又添了一把柴火。音乐人们终于有一个地方可以去证实：没错，我的歌确实被拿去训练AI了。

评论