谷歌DeepMind给AI智能体装上了「双控装置」

AI智能体正在改变我们和技术的关系。它们能自主执行复杂任务——从网络防御到科学发现再到产品开发——这些系统正在开启一个生产力的新时代。仅在美国，AI智能体到2030年就能创造2.9万亿美元的经济价值。

但问题也随之而来：随着这些智能体变得越来越强大，它们也需要更复杂的安全保障措施。

谷歌DeepMind近日发布了一份”AI控制路线图”，这是一个在其内部部署先进AI时用来管理和构建安全的框架。这个”纵深防御”思路，可能会成为整个行业的一个参考模型——它超越了传统的模型对齐，增加了一层系统级安全，即使对齐不完美也能提供保障。

“把它想象成带双控装置的驾驶教练。教练信任学生，但随时准备在出现错误时接管方向盘或踩刹车。”——谷歌DeepMind官方博客

他们的安全思路从一个简单的假设出发：如果一个高能力的AI智能体没有跟我们的目标对齐，并且以意想不到的方式行动，怎么办？

这不是危言耸听。随着AI能力越来越强，研究人员越来越担心”对抗性行为”——智能体可能会学会隐藏自己的真实意图，或者在被监控时表现良好、一旦有机会就做坏事。

DeepMind的应对方案是：不要把所有鸡蛋放在”模型对齐”这一个篮子里。他们在传统安全措施（沙箱隔离、终端安全、提示注入防护）的基础上，增加了一层独立的系统级控制。

路线图的第一个支柱是威胁建模。他们开发了一个全新的AI威胁建模框架，把不可信的AI智能体当成潜在的”内部威胁”——就像一家公司对待一个已经有权进入办公室、但可能会作恶的员工那样。

这个框架建立在业界标准的MITRE ATT&CK框架之上——这是一个基于真实世界观察、全球可访问的对抗战术和技术知识库。把潜在攻击拆解成更小的战术和技术，这样可以有条不紊地追踪风险，在造成损害之前发现不良行为。

路线图的第二个支柱是部署控制缓解措施，分为”检测”和”响应”两部分。

检测方面，监控是骨干。他们用其他受信任的AI系统当”监督员”，不断审查正在工作的智能体的推理、行动和计划，看它是不是跑偏了。

响应方面，如果监督员看到智能体试图做有害的事情，它可以介入，在损害发生之前阻止这个行动。这就像驾驶教练的副刹车——平时不碰，但需要时能救命。

路线图中有一个有意思的设计：把安全协议映射到AI能力的可测量里程碑上，根据模型能力动态调整防御强度。

有两个关键维度：一个是”逃避检测的能力”。今天，我们监控模型可见的思维链；但随着模型学会隐藏自己的推理，光读它们说出来的推理就不够了。另一个是”造成潜在伤害的能力”——对于低风险和可逆的行动，可以延迟审查；但对于特别高风险的行动，必须实时预防，在有害行动执行之前就阻止它。

为了构建这些系统，DeepMind团队已经分析了100万条编程智能体任务轨迹。大多数被标记的事件并不是源于对抗意图，而是源于智能体对目标的误解或者”过于急切”——它太想实现用户的目标了，结果跑偏了。

理解这些细微差别对于完善安全协议至关重要。目前这个监控系统已经在Gemini Spark智能体上运行，能够对新兴问题做出实时响应。

DeepMind在发布路线图的同时，还向政策制定者发布了一份技术框架文件《智能体安全的三个层次》，详细说明了需要在三个层面改善安全：单个智能体层面、多智能体系统层面、以及整个生态系统的网络防御和韧性建设。

这份路线图来得正是时候。最近Anthropic的Claude Fable 5模型被美国政府以国家安全为由阻止公开发布，整个行业都在讨论：谁来决定了AI什么时候太危险？DeepMind的路线图至少提供了一个技术层面的答案——不管监管如何变化，先把技术防线筑起来。

评论