Google DeepMind掏了1000万美元，研究AI Agent互相勾兑会出什么乱子

作者：

在

AI Agent今年是个热门词，各家都在推。但有没有人想过，当几百万个Agent同时在网上跑，还互相打交道，会发生什么？

Google DeepMind想过。而且它想完了觉得这事值得花1000万美元来研究。

Rohin Shah是Google DeepMind的AGI安全与对齐研究总监。他的担心是，Agent能自己完成任务，还能接受其他Agent的指令——这种”Agent之间互相打交道”的场景，会带来全新的一类风险。

为了应对这个，Google DeepMind跟几个机构一起，凑了1000万美元的资金池，专门资助研究人员研究多Agent系统的行为，想办法防止不安全的场景。

跟Google DeepMind一起出钱的，有施密特科学基金会（Eric Schmidt搞的那个）、英国政府的” moonshot agency”ARIA、非营利研究机构Cooperative AI Foundation，还有Google自己的慈善部门Google.org。

“现在的问题是没有一个专门研究多Agent安全的领域。我们希望有这样一个领域。”——Rohin Shah，Google DeepMind

具体有什么风险？Shah和James Fox（施密特科学基金会”可信AI科学”项目的负责人）主要担心的，是现在网上已经有的坏事情被AI Agent”超级加倍”。

诈骗、提示注入攻击（就是有人给AI Agent喂恶意指令，把它变成自动化的恶意软件）、其他形式的网络攻击——这些事现在人类已经在做了，Agent版的只会更快、更规模化。

Fox说了一句话：”我们有一个对全社会运作至关重要的数字公共空间，你真的希望这东西不至于跌入彻底的混乱。”

我问他俩有没有考虑过那种最极端的情况，比如AGI导致经济全面崩溃之类的。Shah说：”如果说的是今年年底之前，那肯定不会。” 才六个月啊！他笑了笑，说：”好吧，那之后的一段时间也不会。”

Shah和Fox都认为，要理解大量多Agent系统互相交互时会发生什么，唯一的办法是跑真实的模拟。把AI Agent扔进沙盒里，观察它们做什么。

研究单个Agent，甚至研究小群Agent，是没法预测全局的。基于LLM的AI Agent不一定会理性行动，Fox说。真正的复杂度来自于海量交互同时发生。

有些研究人员（包括Google DeepMind的一个团队）甚至论证过，AGI可能不是来自于单个超级聪明的模型，而是来自于一种Agent”蜂巢思维”——整个的能力大于部分之和。

就在几周前，Anthropic发布了基于”零信任”方法的AI Agent部署指南——这个方法最早来自网络安全领域，基本假设是计算机系统就是有漏洞的，Agent就是攻击者，入侵迟早会发生。

特拉维夫的网络安全公司Akeyless的联合创始人兼CTO Refael Angel说，过去所有的安全方法都假设机器上跑的是人类写的软件，走的是固定的路径、做固定的事情。”Agent把所有这些假设都打破了。它会推理，它会即兴发挥，而且它可能因为被要求在文档里读一句话——就那一句话——而被劫持。”

Angel欢迎这1000万美元的新资金。”不应该由某一家实验室来制定其他所有人都要信任的安全标准，”他说。但他也提醒，安全研究人员可能会只顾着研究那些花里胡哨的假想场景，而忽略了已经摆在眼前的、没那么酷的实际问题。

Fox则说，几年前还只是假想的事情，现在已经很真实了：”未来来得比预想的快。”

评论