当AI代理开始「成群结队」地上网,Google DeepMind说:得先研究一下会出什么事

一个人干坏事,和一万个人同时干坏事,完全是两个概念。AI代理也是一样。Google DeepMind的AGI安全与对齐研究负责人Rohin Shah最近在担心一件事:当数以百万计的AI代理同时在线、互相交互的时候,会发生什么?

这个问题听起来有点遥远,但Shah说:还有几个月就来了。他没有危言耸听——AI代理正在从「演示视频」走向「真实部署」,而当数量突破临界点,行为模式可能完全不一样。

1000万美元,买一个研究领域

为了未雨绸缪,Google DeepMind在2026年6月联合几家机构宣布了一笔1000万美元的研究资金,专门用来研究多智能体系统的安全风险。

跟Google DeepMind一起出钱的包括:施密特科学基金会(Eric Schmidt夫妇的慈善基金)、英国政府的「登月局」ARIA、非营利研究组织Cooperative AI Foundation、以及Google的慈善部门Google.org。

AI多智能体系统安全概念图
多智能体AI系统的安全风险正在成为新的研究前沿(配图由AI生成)

Shah说,这笔钱的主要目的是「启动学术界对多智能体安全的研究」。工业界实验室忙着做产品、冲估值,没人仰望星空——学者的优势是可以想得很远,包括那些工业界「脑子里排不上号」的问题。

「主要问题是,多智能体安全几乎还不是一个真正的研究领域。我们希望它成为。」
——Rohin Shah,Google DeepMind

风险到底是什么?

Shah和施密特科学的James Fox说,最主要的担心是:现在互联网上已经有的坏事——诈骗、网络攻击、恶意软件——到了AI代理时代,会被「超级加倍」。

比如「提示注入」(prompt injection):如果一个AI代理被喂了恶意指令,它就会变成一台自动行动的恶意软件,而且比任何人类黑客能干的都多。Fox说:「我们的数字公共空间是社会运作的基础,你真的不希望它陷入无政府状态。」

为什么这个问题特别难?

你不能用研究单个代理的方法来研究多代理系统。Fox说,基于LLM的AI代理不总是理性行动,而多代理系统的复杂性来自于「海量交互同时发生」。

唯一理解它的方法,是在沙箱里做逼真的模拟。有些研究者(包括Google DeepMind的一个团队)甚至认为:通用人工智能(AGI)可能不是来自于单个超级模型,而是来自于一种「代理蜂巢思维」——多个代理的能力加起来大于部分之和。


不是只有Google在担心

Google DeepMind不是唯一一家对自己的技术感到担心的AI巨头。几周前,Anthropic发布了基于「零信任」原则的AI代理部署指南——零信任是网络安全里的一个思路,核心假设是:系统一定有漏洞,代理可能是攻击者,入侵一定会发生。

以色列特拉维夫网络安全公司Akeyless的联合创始人兼CTO Refael Angel说:「过去所有的安全方法都假设机器是人类写的软件,走固定路径、做固定事情。代理打破了所有这些假设。它会推理,它会即兴发挥,它可能被人用一句话劫持。」

Angel欢迎这笔1000万美元的研究资金,但他提醒:安全研究者容易沉迷于「极端假设场景」,而忽视了已经发生的无聊问题。这也是Shah他们在努力平衡的——既要看远,也要看准。

我们还有多少时间?

Shah说,我们还有「几个月」的时间,代理就会在经济中大规模部署,到那时潜在风险就成了真正的问题。他想跑在这个时刻前面。

Fox补充说:几年前还是假设的风险,现在已经很真实了。「未来来得比预期快。」

1000万美元,对于Google DeepMind自己的研发预算来说,是九牛一毛。但这笔钱的意义在于:把多智能体安全这个问题,从工业界的「顺手看看」变成学术界的「正经研究领域」。当AI代理开始成群结队地上网,我们最好已经想清楚会发生什么。

📎 原文来源:MIT Technology Review – Google DeepMind is worried about what happens when millions of agents start to interact

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注