《大西洋月刊》把AI训练用的音乐全扒出来了,你可以在线搜索

用AI生成一段音乐,旋律听起来还挺像那么回事——但你知道这段旋律”学”过哪些歌吗?《大西洋月刊》的记者Alex Reisner最近干了一件事:他把AI音乐训练数据集扒了个底朝天,然后把结果做成了可以随便搜的公开数据库。

1200万首歌,安静地躺在训练集里

Reisner一共找到了四个数据集,其中两个大得离谱——一个里面有1200万条音轨,另一个有900万条。剩下两个小一些,但各自也有超过10万首歌。这些数据集在网上的下载量已经达到几千次,虽然没法精确知道是谁在用,但Google和Stability AI都已经在研究论文里承认,他们用过其中的数据。

问题来了:这些歌是怎么进去的?有些来源——比如Free Music Archive——虽然允许个人免费试听,但商业使用是要授权的。更麻烦的是,其中三个数据集本质上是一堆YouTube或Spotify链接的列表。AI开发者用自动化工具把这些音频扒下来,而这些工具可以绕过登录、广告、以及本该给创作者带来收入的机制。这直接违反了平台的服务条款。

AI音乐训练数据可视化
AI训练数据的透明度问题日益受到关注

Lady Gaga和Radiohead都在里面

数据集里的名字读起来像一张超级音乐节阵容。Lady Gaga、Fred Again..、Radiohead、Aphex Twin、Wu-Tang Clan、Bruce Springsteen,还有实验音乐人Hainbach——都可能被塞进了某个AI模型的”记忆”里。你自己可以去《大西洋月刊》的”AI Watchdog”网站搜,看看你的歌或者你喜欢的音乐人是不是也在名单上。

值得注意的是,这不只是音乐的问题。AI训练数据的来源透明度,已经成为整个行业绕不开的议题。你用的AI助手,可能”听过”你最喜欢的歌。

为什么这件事很重要

这背后的核心矛盾其实很简单:AI公司需要海量数据来训练模型,但音乐人(尤其是独立音乐人)并没有授权让自己的作品被这样使用。目前这事儿还处在法律的灰色地带,但随着AI音乐生成工具(比如Suno和Google的Lyria)越来越好用,版权诉讼只会越来越多。

Reisner做的这个数据库,至少让”训练数据里到底有什么”这件事变得可以查证。透明度是第一步,接下来怎么走,还得看法庭和立法者怎么出牌。


📎 原文来源:The Verge – The Atlantic created a searchable database of the music used to train AI

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注