AI代理(Agent)正在快速渗透企业内网,帮开发人员写代码、查漏洞、调度系统。它们越能干,也越危险——一个被攻破的AI代理,本质上和拿到账号的内鬼没两样。Google DeepMind本周发布了一份AI Control Roadmap,专门讲怎么在”AI可能已经不对齐”的前提下,还能管住它。
把AI代理当成”潜在内鬼”来防
这份路线图的底层的假设相当冷静:就算模型对齐做得再好,也不能完全信任。 这跟传统安全思路一脉相承——你不光要相信员工不会干坏事,还得在门禁、权限、审计上做好铺垫,防止万一。
DeepMind把这套思路叫作”防御纵深”(defense-in-depth)。它是在模型对齐这个第一道防线之外,再加一层系统级的安全保障。好比驾校教练带学员上路,副驾驶脚下有一套刹车——教练相信学员,但也做好了随时接管的准备。
“Think of it like a driving instructor with dual controls. The instructor trusts the student but stays ready to take the wheel or hit the brakes if a mistake occurs.”
—— Google DeepMind博客
三个支柱:威胁建模、监控、响应
路线图的框架建立在三个支柱上。
第一是威胁建模。DeepMind借鉴了网络安全界常用的MITRE ATT&CK框架,把AI代理可能搞破坏的方式拆解成一个个具体战术和技术。这样就能系统性地追踪风险,而不是等到出事再瞎找原因。他们把AI代理视为”内部威胁”(insider threat)——就跟公司里有权限的员工可能作恶一样,AI代理有了权限之后也得被盯着。
第二是检测。这套系统用其他可信的AI模型当”监工”,持续审查正在工作的代理的推理链、行动和计划,看它有没有跑偏。这里的核心是监控模型的”思维链”(chain-of-thought)——如果模型学会了隐藏自己的推理,光看输出就不够用了。
第三是预防和响应。一旦监工发现代理在干坏事,可以实时拦截,在损害发生前叫停。对于低风险可逆的操作,可以事后看日志再处理;对于高风险操作(比如执行网络攻击),必须实时阻断。

模型越聪明,防御也得跟着升级
这份路线图最有意思的地方是,它把安全协议和模型的能力里程碑绑定在一起。随着模型越来越强,防御措施也要同步升级。
有两个维度在同步演进。一个是规避检测的能力:现在的模型,你还能看它的思维链来判读意图;但以后的模型可能会学会”知道自己在被监控”(oversight awareness),或者干脆用不可读的内部推理(opaque reasoning)。到那时候,光看输出文本就不够了,得去检查模型内部的工作原理。
另一个是造成危害的能力。对于低风险操作,异步响应(先做事、后审计)就够了;对于高风险操作,必须同步响应(先做安全评估、再执行)。路线图把模型的检测规避能力分成D1到D4四个等级,把攻击执行能力分成R1到R3三个等级,不同等级匹配不同的安全策略。
已经分析了100万条代理行为轨迹
这不是纸上谈兵。DeepMind团队已经搭了一个异步监控系统原型,用来审查编程代理的行为轨迹,并把可疑事件按路线图的威胁分类法进行标记。他们已经分析了100万条编程代理的任务记录,从中提炼出有价值的安全模式。
一个值得注意的发现是:大部分被标记的事件,并不是因为代理有恶意,而是因为误解了指令或者太急于完成任务。这说明AI安全不只是防”坏AI”,还要防”太努力的好AI”干出格的事。
这项研究已经在Gemini Spark代理上部署了实时监控系统,能及时捕捉到比如意外删除数据这类问题。
为什么要现在发这个?
AI代理正在从演示阶段走向真实部署。企业里用上Claude Code、Cursor、Devin之类的编程代理已经不稀奇了,这些代理有读写代码、执行命令、访问内部系统的权限。一旦这些代理被prompt injection攻击,后果不比账号泄露轻。
DeepMind发这份路线图,既是展示自己在安全上的投入,也是在给行业立标杆——潜台词是:”我们在这方面想得最远,你们可以参考我们的框架。” 同期还发布了一份给政策制定者看的技术框架文件《Agent Security的三层》,明显是在影响监管方向的节奏。
- AI代理安全的核心矛盾:代理越能干,权限越大,出事后的损失也越大
- DeepMind的方案:不假设对齐完美,而是在系统层面加”副刹车”
- 威胁建模+AI监工+分级响应,三层防线
- 已分析100万条真实代理行为轨迹,发现大部分”异常”源于过度积极而非恶意
发表回复