ElevenLabs全面接入SynthID水印,AI声音内容终于有迹可循

AI声音越来越像真人,水印成了最后的防线

以前AI生成的声音一听就知道是机器——语调平、没感情、偶尔还卡壳。现在不一样了。ElevenLabs、Google、OpenAI的语音模型出来的效果,打电话过去很多人根本分不出来对面是真还是假。这让”声音深伪”从一个技术问题变成了一个社会问题——诈骗电话、假录音、伪造名人发言,这些事已经在发生。

ElevenLabs这周做了一个实质动作:把Google DeepMind的SynthID水印技术接入了自己的文字转语音生成流程。免费用户已经能用上,接下来几周会覆盖所有音频生成。这个水印是直接嵌进音频里的,人耳听不到,但用ElevenLabs的音频检测器可以识别出来。哪怕音频被裁剪、加速、转格式、删掉元数据,水印还在。

AI生成音频水印示意图
SynthID水印:嵌在音频里、人耳听不见、但可以检测 | 图片来源:ElevenLabs

SynthID是什么,为什么是Google在推

SynthID是Google DeepMind在2023年推出的AI内容水印系统,最初用于图片,后来扩展到音频和视频。原理是在生成内容里嵌入一个人类无法感知的模式,专门的检测器可以把它找出来,从而判断这段内容是不是AI生成的、是哪个平台生成的。

今年5月的Google I/O上,Google宣布了一个”SynthID联盟”——OpenAI、英伟达、ElevenLabs、Kakao都承诺采用这个标准。这是AI行业少有的”主动给自己套绳子”的时刻:大家同意在自己的输出里加标记,让外界能追溯来源。当时这还只是一个承诺,ElevenLabs现在是第一个真正把这件事跑通的上线案例。

“人们应该知道自己在和AI互动。随着我们的语音、音乐和音效模型越来越好,我们希望人们能够识别一段音频是否由AI生成,而且不需要专业工具。”——ElevenLabs产品团队

水印能解决什么问题

最直接的用途是溯源。如果有一段可疑的音频在传播,用ElevenLabs的免费音频检测器(Audio Detector)扫一下,就能知道是不是ElevenLabs生成的。这对打击深伪诈骗和虚假音视频有直接帮助。

但这事也有局限性。水印只能证明”这段音频是ElevenLabs生成的”,不能证明”这段音频是某某人说过的”。如果有人用ElevenLabs克隆某人的声音去诈骗,水印能告诉你是ElevenLabs生成的,但没法直接告诉你克隆的是谁。要真正解决问题,还需要平台、法律、用户教育一起上。

另一个现实问题是:水印只覆盖愿意加它的人。如果有人用没有水印的开源模型生成音频,这套体系就失效了。所以SynthID联盟的意义在于,让主流平台都加入,至少大部分商业AI音频是有标记的。

ElevenLabs在博客里还提到,他们正在推动把SynthID加入C2PA的软绑定列表。C2PA是一个内容来源认证标准,能让被删掉元数据的内容重新”找回”自己的来源信息。这两个标准如果能打通,AI内容的溯源体系会更完整。

监管压力是背后的推手

越来越多的司法管辖区要求AI生成内容必须以机器可读的方式标注为”合成内容”。欧盟AI法案里有相关条款,美国各州也在推类似立法。对ElevenLabs来说,提前把水印做好,比事后被监管强制要求要主动得多。

而且ElevenLabs本身也面临过滥用问题。2024年有过一波用ElevenLabs克隆名人声音制作深度伪造音频的事件,当时公司加强了安全审核。水印是又一层防护——就算有人绕过审核生成了不当内容,至少事后能追查来源。

接下来,OpenAI、英伟达那边什么时候跟上,是业界最关注的。Google说它们都会用SynthID,但承诺和实际落地之间还有距离。ElevenLabs先走了一步,对其他平台是个压力,也是个参考。


📎 原文来源:ElevenLabs rolls out SynthID support — The Verge | Detecting audio generated by ElevenLabs with SynthID — ElevenLabs Blog

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注