Google DeepMind给AI代理装上了副刹车：这份安全路线图，把AI当成潜在内鬼来防

AI代理（Agent）正在快速渗透企业内网，帮开发人员写代码、查漏洞、调度系统。它们越能干，也越危险——一个被攻破的AI代理，本质上和拿到账号的内鬼没两样。Google DeepMind本周发布了一份AI Control Roadmap，专门讲怎么在”AI可能已经不对齐”的前提下，还能管住它。

把AI代理当成”潜在内鬼”来防

这份路线图的底层的假设相当冷静：就算模型对齐做得再好，也不能完全信任。 这跟传统安全思路一脉相承——你不光要相信员工不会干坏事，还得在门禁、权限、审计上做好铺垫，防止万一。

DeepMind把这套思路叫作”防御纵深”（defense-in-depth）。它是在模型对齐这个第一道防线之外，再加一层系统级的安全保障。好比驾校教练带学员上路，副驾驶脚下有一套刹车——教练相信学员，但也做好了随时接管的准备。

“Think of it like a driving instructor with dual controls. The instructor trusts the student but stays ready to take the wheel or hit the brakes if a mistake occurs.”
—— Google DeepMind博客

三个支柱：威胁建模、监控、响应

路线图的框架建立在三个支柱上。

第一是威胁建模。DeepMind借鉴了网络安全界常用的MITRE ATT&CK框架，把AI代理可能搞破坏的方式拆解成一个个具体战术和技术。这样就能系统性地追踪风险，而不是等到出事再瞎找原因。他们把AI代理视为”内部威胁”（insider threat）——就跟公司里有权限的员工可能作恶一样，AI代理有了权限之后也得被盯着。

第二是检测。这套系统用其他可信的AI模型当”监工”，持续审查正在工作的代理的推理链、行动和计划，看它有没有跑偏。这里的核心是监控模型的”思维链”（chain-of-thought）——如果模型学会了隐藏自己的推理，光看输出就不够用了。

第三是预防和响应。一旦监工发现代理在干坏事，可以实时拦截，在损害发生前叫停。对于低风险可逆的操作，可以事后看日志再处理；对于高风险操作（比如执行网络攻击），必须实时阻断。

Google DeepMind AI Control Roadmap — Google DeepMind发布的AI代理安全控制框架示意图

模型越聪明，防御也得跟着升级

这份路线图最有意思的地方是，它把安全协议和模型的能力里程碑绑定在一起。随着模型越来越强，防御措施也要同步升级。

有两个维度在同步演进。一个是规避检测的能力：现在的模型，你还能看它的思维链来判读意图；但以后的模型可能会学会”知道自己在被监控”（oversight awareness），或者干脆用不可读的内部推理（opaque reasoning）。到那时候，光看输出文本就不够了，得去检查模型内部的工作原理。

另一个是造成危害的能力。对于低风险操作，异步响应（先做事、后审计）就够了；对于高风险操作，必须同步响应（先做安全评估、再执行）。路线图把模型的检测规避能力分成D1到D4四个等级，把攻击执行能力分成R1到R3三个等级，不同等级匹配不同的安全策略。

已经分析了100万条代理行为轨迹

这不是纸上谈兵。DeepMind团队已经搭了一个异步监控系统原型，用来审查编程代理的行为轨迹，并把可疑事件按路线图的威胁分类法进行标记。他们已经分析了100万条编程代理的任务记录，从中提炼出有价值的安全模式。

一个值得注意的发现是：大部分被标记的事件，并不是因为代理有恶意，而是因为误解了指令或者太急于完成任务。这说明AI安全不只是防”坏AI”，还要防”太努力的好AI”干出格的事。

这项研究已经在Gemini Spark代理上部署了实时监控系统，能及时捕捉到比如意外删除数据这类问题。

为什么要现在发这个？

AI代理正在从演示阶段走向真实部署。企业里用上Claude Code、Cursor、Devin之类的编程代理已经不稀奇了，这些代理有读写代码、执行命令、访问内部系统的权限。一旦这些代理被prompt injection攻击，后果不比账号泄露轻。

DeepMind发这份路线图，既是展示自己在安全上的投入，也是在给行业立标杆——潜台词是：”我们在这方面想得最远，你们可以参考我们的框架。” 同期还发布了一份给政策制定者看的技术框架文件《Agent Security的三层》，明显是在影响监管方向的节奏。

AI代理安全的核心矛盾：代理越能干，权限越大，出事后的损失也越大
DeepMind的方案：不假设对齐完美，而是在系统层面加”副刹车”
威胁建模+AI监工+分级响应，三层防线
已分析100万条真实代理行为轨迹，发现大部分”异常”源于过度积极而非恶意

📎 原文来源：Google DeepMind – Securing the future of AI agents | 报道：The Verge

Google DeepMind给AI代理装上了副刹车：这份安全路线图，把AI当成潜在内鬼来防

把AI代理当成”潜在内鬼”来防

三个支柱：威胁建模、监控、响应

模型越聪明，防御也得跟着升级

已经分析了100万条代理行为轨迹

为什么要现在发这个？

评论

发表回复 取消回复

更多文章

亚马逊要直接卖AI芯片了，英伟达迎来最重磅挑战者

诺贝尔奖得主John Jumper离开DeepMind，加入对手Anthropic

Unsloth：本地微调大模型速度提升2倍、显存降低70%，67K+Stars让AI训练不再「烧卡」

Mem0：为AI智能体打造通用记忆层，59K+ Stars让AI真正「记住」你

发表回复取消回复