当AI代理开始「成群结队」地上网，Google DeepMind说：得先研究一下会出什么事

作者：

在

一个人干坏事，和一万个人同时干坏事，完全是两个概念。AI代理也是一样。Google DeepMind的AGI安全与对齐研究负责人Rohin Shah最近在担心一件事：当数以百万计的AI代理同时在线、互相交互的时候，会发生什么？

这个问题听起来有点遥远，但Shah说：还有几个月就来了。他没有危言耸听——AI代理正在从「演示视频」走向「真实部署」，而当数量突破临界点，行为模式可能完全不一样。

为了未雨绸缪，Google DeepMind在2026年6月联合几家机构宣布了一笔1000万美元的研究资金，专门用来研究多智能体系统的安全风险。

跟Google DeepMind一起出钱的包括：施密特科学基金会（Eric Schmidt夫妇的慈善基金）、英国政府的「登月局」ARIA、非营利研究组织Cooperative AI Foundation、以及Google的慈善部门Google.org。

Shah说，这笔钱的主要目的是「启动学术界对多智能体安全的研究」。工业界实验室忙着做产品、冲估值，没人仰望星空——学者的优势是可以想得很远，包括那些工业界「脑子里排不上号」的问题。

「主要问题是，多智能体安全几乎还不是一个真正的研究领域。我们希望它成为。」
——Rohin Shah，Google DeepMind

Shah和施密特科学的James Fox说，最主要的担心是：现在互联网上已经有的坏事——诈骗、网络攻击、恶意软件——到了AI代理时代，会被「超级加倍」。

比如「提示注入」（prompt injection）：如果一个AI代理被喂了恶意指令，它就会变成一台自动行动的恶意软件，而且比任何人类黑客能干的都多。Fox说：「我们的数字公共空间是社会运作的基础，你真的不希望它陷入无政府状态。」

你不能用研究单个代理的方法来研究多代理系统。Fox说，基于LLM的AI代理不总是理性行动，而多代理系统的复杂性来自于「海量交互同时发生」。

唯一理解它的方法，是在沙箱里做逼真的模拟。有些研究者（包括Google DeepMind的一个团队）甚至认为：通用人工智能（AGI）可能不是来自于单个超级模型，而是来自于一种「代理蜂巢思维」——多个代理的能力加起来大于部分之和。

Google DeepMind不是唯一一家对自己的技术感到担心的AI巨头。几周前，Anthropic发布了基于「零信任」原则的AI代理部署指南——零信任是网络安全里的一个思路，核心假设是：系统一定有漏洞，代理可能是攻击者，入侵一定会发生。

以色列特拉维夫网络安全公司Akeyless的联合创始人兼CTO Refael Angel说：「过去所有的安全方法都假设机器是人类写的软件，走固定路径、做固定事情。代理打破了所有这些假设。它会推理，它会即兴发挥，它可能被人用一句话劫持。」

Angel欢迎这笔1000万美元的研究资金，但他提醒：安全研究者容易沉迷于「极端假设场景」，而忽视了已经发生的无聊问题。这也是Shah他们在努力平衡的——既要看远，也要看准。

Shah说，我们还有「几个月」的时间，代理就会在经济中大规模部署，到那时潜在风险就成了真正的问题。他想跑在这个时刻前面。

Fox补充说：几年前还是假设的风险，现在已经很真实了。「未来来得比预期快。」

1000万美元，对于Google DeepMind自己的研发预算来说，是九牛一毛。但这笔钱的意义在于：把多智能体安全这个问题，从工业界的「顺手看看」变成学术界的「正经研究领域」。当AI代理开始成群结队地上网，我们最好已经想清楚会发生什么。

评论