《大西洋月刊》把AI训练用的音乐全扒出来了，你可以在线搜索

作者：

在

用AI生成一段音乐，旋律听起来还挺像那么回事——但你知道这段旋律”学”过哪些歌吗？《大西洋月刊》的记者Alex Reisner最近干了一件事：他把AI音乐训练数据集扒了个底朝天，然后把结果做成了可以随便搜的公开数据库。

1200万首歌，安静地躺在训练集里

Reisner一共找到了四个数据集，其中两个大得离谱——一个里面有1200万条音轨，另一个有900万条。剩下两个小一些，但各自也有超过10万首歌。这些数据集在网上的下载量已经达到几千次，虽然没法精确知道是谁在用，但Google和Stability AI都已经在研究论文里承认，他们用过其中的数据。

问题来了：这些歌是怎么进去的？有些来源——比如Free Music Archive——虽然允许个人免费试听，但商业使用是要授权的。更麻烦的是，其中三个数据集本质上是一堆YouTube或Spotify链接的列表。AI开发者用自动化工具把这些音频扒下来，而这些工具可以绕过登录、广告、以及本该给创作者带来收入的机制。这直接违反了平台的服务条款。

Lady Gaga和Radiohead都在里面

数据集里的名字读起来像一张超级音乐节阵容。Lady Gaga、Fred Again..、Radiohead、Aphex Twin、Wu-Tang Clan、Bruce Springsteen，还有实验音乐人Hainbach——都可能被塞进了某个AI模型的”记忆”里。你自己可以去《大西洋月刊》的”AI Watchdog”网站搜，看看你的歌或者你喜欢的音乐人是不是也在名单上。

值得注意的是，这不只是音乐的问题。AI训练数据的来源透明度，已经成为整个行业绕不开的议题。你用的AI助手，可能”听过”你最喜欢的歌。

为什么这件事很重要

这背后的核心矛盾其实很简单：AI公司需要海量数据来训练模型，但音乐人（尤其是独立音乐人）并没有授权让自己的作品被这样使用。目前这事儿还处在法律的灰色地带，但随着AI音乐生成工具（比如Suno和Google的Lyria）越来越好用，版权诉讼只会越来越多。

Reisner做的这个数据库，至少让”训练数据里到底有什么”这件事变得可以查证。透明度是第一步，接下来怎么走，还得看法庭和立法者怎么出牌。

📎 原文来源：The Verge – The Atlantic created a searchable database of the music used to train AI

AI AI技术 AI数据 AI版权 AI音乐

《大西洋月刊》把AI训练用的音乐全扒出来了，你可以在线搜索

1200万首歌，安静地躺在训练集里

Lady Gaga和Radiohead都在里面

为什么这件事很重要

评论

发表回复 取消回复

更多文章

Chroma：AI原生开源向量数据库，RAG与语义搜索首选，28,530 Stars让搜索基础设施零门槛

iOS 27的AI不好玩，但真的好用

特朗普政府封杀Anthropic，结果反而帮它做了广告

Anthropic签了9.15亿美元碳去除大单，AI公司终于开始算环保账了

发表回复取消回复