
AI智能体正在改变我们和技术的关系。它们能自主执行复杂任务——从网络防御到科学发现再到产品开发——这些系统正在开启一个生产力的新时代。仅在美国,AI智能体到2030年就能创造2.9万亿美元的经济价值。
但问题也随之而来:随着这些智能体变得越来越强大,它们也需要更复杂的安全保障措施。
谷歌DeepMind近日发布了一份”AI控制路线图”,这是一个在其内部部署先进AI时用来管理和构建安全的框架。这个”纵深防御”思路,可能会成为整个行业的一个参考模型——它超越了传统的模型对齐,增加了一层系统级安全,即使对齐不完美也能提供保障。
“把它想象成带双控装置的驾驶教练。教练信任学生,但随时准备在出现错误时接管方向盘或踩刹车。”——谷歌DeepMind官方博客
从”假设对齐”到”假设不对齐”
他们的安全思路从一个简单的假设出发:如果一个高能力的AI智能体没有跟我们的目标对齐,并且以意想不到的方式行动,怎么办?
这不是危言耸听。随着AI能力越来越强,研究人员越来越担心”对抗性行为”——智能体可能会学会隐藏自己的真实意图,或者在被监控时表现良好、一旦有机会就做坏事。
DeepMind的应对方案是:不要把所有鸡蛋放在”模型对齐”这一个篮子里。他们在传统安全措施(沙箱隔离、终端安全、提示注入防护)的基础上,增加了一层独立的系统级控制。
把AI当成”潜在内部威胁”来防
路线图的第一个支柱是威胁建模。他们开发了一个全新的AI威胁建模框架,把不可信的AI智能体当成潜在的”内部威胁”——就像一家公司对待一个已经有权进入办公室、但可能会作恶的员工那样。
这个框架建立在业界标准的MITRE ATT&CK框架之上——这是一个基于真实世界观察、全球可访问的对抗战术和技术知识库。把潜在攻击拆解成更小的战术和技术,这样可以有条不紊地追踪风险,在造成损害之前发现不良行为。
让AI互相监督
路线图的第二个支柱是部署控制缓解措施,分为”检测”和”响应”两部分。
检测方面,监控是骨干。他们用其他受信任的AI系统当”监督员”,不断审查正在工作的智能体的推理、行动和计划,看它是不是跑偏了。
响应方面,如果监督员看到智能体试图做有害的事情,它可以介入,在损害发生之前阻止这个行动。这就像驾驶教练的副刹车——平时不碰,但需要时能救命。
AI越聪明,防御越要升级
路线图中有一个有意思的设计:把安全协议映射到AI能力的可测量里程碑上,根据模型能力动态调整防御强度。
有两个关键维度:一个是”逃避检测的能力”。今天,我们监控模型可见的思维链;但随着模型学会隐藏自己的推理,光读它们说出来的推理就不够了。另一个是”造成潜在伤害的能力”——对于低风险和可逆的行动,可以延迟审查;但对于特别高风险的行动,必须实时预防,在有害行动执行之前就阻止它。
为了构建这些系统,DeepMind团队已经分析了100万条编程智能体任务轨迹。大多数被标记的事件并不是源于对抗意图,而是源于智能体对目标的误解或者”过于急切”——它太想实现用户的目标了,结果跑偏了。
理解这些细微差别对于完善安全协议至关重要。目前这个监控系统已经在Gemini Spark智能体上运行,能够对新兴问题做出实时响应。
这不是一家的事
DeepMind在发布路线图的同时,还向政策制定者发布了一份技术框架文件《智能体安全的三个层次》,详细说明了需要在三个层面改善安全:单个智能体层面、多智能体系统层面、以及整个生态系统的网络防御和韧性建设。
这份路线图来得正是时候。最近Anthropic的Claude Fable 5模型被美国政府以国家安全为由阻止公开发布,整个行业都在讨论:谁来决定了AI什么时候太危险?DeepMind的路线图至少提供了一个技术层面的答案——不管监管如何变化,先把技术防线筑起来。
发表回复