说出来你可能不信,但AI驱动的网络进攻是遥远未来这个判断,已经被数据彻底推翻了。
AISI的测试结果让人睡不着觉
英国AI安全研究所(AISI)最近做了一件事:他们让Anthropic的Claude Mythos Preview去跑一个32步的「最后一批」(TLO)测试范围。这个测试范围是什么概念?它是一个模拟企业网络的完整攻击链路,从侦察到完全域控制,通常需要人类红队投入20个小时才能走完。
结果呢?Mythos在10次运行中成功了3次。
说实话,第一次看到这个数据的时候我没太当回事——10次成3次,成功率30%,好像也不怎么样?但AISI的评估接着说:在专家级任务上,Mythos的成功率达到73%。
这就很恐怖了。
OpenAI的GPT-5.5几乎同步追上
更让人不安的是时间线。Claude Mythos公布结果3周后,OpenAI的GPT-5.5公布了几乎完全一致的能力画像:
- 10次端到端测试中成功2次
- 专家级任务成功率71.4%
- 同样存在无防御方的测试限制条件
两个模型的能力曲线几乎重合。这不是巧合,而是前沿AI在网络进攻能力上已经形成了稳定的技术范式。
每4个月翻倍意味着什么?
AISI估计,当前前沿进攻性网络能力每4个月翻倍。
等等,这个速度比2025年底的每7个月翻倍还要快。如果按这个速度线性外推(虽然实际是指数增长),到2026年底,前沿AI可能就能在无人干预的情况下完成绝大多数中级红队任务。
我觉得这里有个被严重低估的风险:当前的基准测试如果没有对抗性防御层,根本区分不出前沿模型的能力差异。换句话说,我们可能根本不知道AI在网络进攻上到底有多强,因为我们的测试环境太友好了。
传统网络安全厂商的生存危机
这个变化最直接的受害者是谁?是那些依赖静态签名、规则的传统网络安全厂商。
它们的护城河——特征库、规则集、人工分析的专家经验——正在被进攻性AI循环超越。AISI的报告直言不讳:传统检测手段已经过时了。
那谁有机会活下来?CrowdStrike、Palo Alto、Microsoft Defender这些集成了XDR平台的厂商,它们掌握着防御智能体所需的编排层。但前提是它们能推出真正的AI原生架构,而不是把传统技术栈包装一下就号称AI驱动。
一个值得深思的悖论
这里有个我很在意、但行业讨论不多的悖论:
我们正在用AI来防御AI驱动的网络进攻。但防御AI需要的数据、算力、响应速度,和传统安全工具完全不在一个量级上。这不只是技术升级的问题,而是整个安全行业的基础设施要重构的问题。
而那些手里握着大量防御数据的平台厂商,会不会借此形成新一轮的垄断?
参考资料:State of AI: May 2026, Air Street Press, AISI Assessment Report
发表回复