AI Agent今年是个热门词,各家都在推。但有没有人想过,当几百万个Agent同时在网上跑,还互相打交道,会发生什么?
Google DeepMind想过。而且它想完了觉得这事值得花1000万美元来研究。

一个还没成形的研究领域
Rohin Shah是Google DeepMind的AGI安全与对齐研究总监。他的担心是,Agent能自己完成任务,还能接受其他Agent的指令——这种”Agent之间互相打交道”的场景,会带来全新的一类风险。
为了应对这个,Google DeepMind跟几个机构一起,凑了1000万美元的资金池,专门资助研究人员研究多Agent系统的行为,想办法防止不安全的场景。
跟Google DeepMind一起出钱的,有施密特科学基金会(Eric Schmidt搞的那个)、英国政府的” moonshot agency”ARIA、非营利研究机构Cooperative AI Foundation,还有Google自己的慈善部门Google.org。
“现在的问题是没有一个专门研究多Agent安全的领域。我们希望有这样一个领域。”——Rohin Shah,Google DeepMind
风险在哪里?
具体有什么风险?Shah和James Fox(施密特科学基金会”可信AI科学”项目的负责人)主要担心的,是现在网上已经有的坏事情被AI Agent”超级加倍”。
诈骗、提示注入攻击(就是有人给AI Agent喂恶意指令,把它变成自动化的恶意软件)、其他形式的网络攻击——这些事现在人类已经在做了,Agent版的只会更快、更规模化。
Fox说了一句话:”我们有一个对全社会运作至关重要的数字公共空间,你真的希望这东西不至于跌入彻底的混乱。”
我问他俩有没有考虑过那种最极端的情况,比如AGI导致经济全面崩溃之类的。Shah说:”如果说的是今年年底之前,那肯定不会。” 才六个月啊!他笑了笑,说:”好吧,那之后的一段时间也不会。”
模拟,还是模拟
Shah和Fox都认为,要理解大量多Agent系统互相交互时会发生什么,唯一的办法是跑真实的模拟。把AI Agent扔进沙盒里,观察它们做什么。
研究单个Agent,甚至研究小群Agent,是没法预测全局的。基于LLM的AI Agent不一定会理性行动,Fox说。真正的复杂度来自于海量交互同时发生。
有些研究人员(包括Google DeepMind的一个团队)甚至论证过,AGI可能不是来自于单个超级聪明的模型,而是来自于一种Agent”蜂巢思维”——整个的能力大于部分之和。
不是只有Google在担心
就在几周前,Anthropic发布了基于”零信任”方法的AI Agent部署指南——这个方法最早来自网络安全领域,基本假设是计算机系统就是有漏洞的,Agent就是攻击者,入侵迟早会发生。
特拉维夫的网络安全公司Akeyless的联合创始人兼CTO Refael Angel说,过去所有的安全方法都假设机器上跑的是人类写的软件,走的是固定的路径、做固定的事情。”Agent把所有这些假设都打破了。它会推理,它会即兴发挥,而且它可能因为被要求在文档里读一句话——就那一句话——而被劫持。”
Angel欢迎这1000万美元的新资金。”不应该由某一家实验室来制定其他所有人都要信任的安全标准,”他说。但他也提醒,安全研究人员可能会只顾着研究那些花里胡哨的假想场景,而忽略了已经摆在眼前的、没那么酷的实际问题。
Fox则说,几年前还只是假想的事情,现在已经很真实了:”未来来得比预想的快。”
发表回复