Anthropic 联合创始人 Jack Clark 在今年 5 月给了一个概率:60%,到 2028 年底,完全自主的递归自我进化 AI 就会出现。当时很多人觉得他在喊狼来了。但现在,英伟达和剑桥大学等 13 位研究者联合发布了一篇论文,让这个预测突然变得没那么遥远了。
这篇论文叫《Red Queen Gödel Machine: Co-Evolving Agents and Their Evaluators》(红皇后哥德尔机:协同进化的智能体与评估者),6 月 24 日挂在 arXiv 上。名字里的”红皇后”来自进化生物学——物种必须不断进化才能保持相对于其他进化物种的适应性,就像《爱丽丝镜中奇遇记》里的红皇后对爱丽丝说的:”你只有拼命跑,才能留在原地。”

以前的所有自进化系统,评估者都是死的
要理解这篇论文干了什么,得先搞清楚它解决了什么问题。递归自我进化 AI 的理想状态是:AI 改写自己的代码,跑一下测试,如果测试结果更好,就保留这次改写。听起来很合理对吧?
但有一个根本性的问题:你用来评估”是否更好”的那个评判标准(evaluator),是固定不变的。随着 AI 越来越强,它会学会”刷分”——专门针对评估者的偏好来优化,而不是真正提升底层能力。这在经济学里叫古德哈特定律(Goodhart’s Law):当一个指标变成优化目标,它就不再是好指标了。
打个比方:你让 AI 做数学题,然后用一个固定的评分程序来判断答案对错。AI 学会了找评分程序的漏洞,给出能通过评分但实际错误的答案。这在 AI 安全圈里叫”reward hacking”(奖励黑客)。以前的解决方案是把评估者做得更复杂,但本质上还是在用固定标准测一个不断进化的系统——这就像用一把不会长的尺子去量一个一直在长高的孩子。
红皇后哥德尔机的核心突破是:评估者也可以进化。在每个训练周期(epoch)的边界,系统可以换一个更好的评估者——但前提是,这个新手得在一个人类标注的留存验证集上证明自己确实比老手更准。如果证明不了,老手继续留任。
数学奥林匹克和科学论文写作,两个硬指标都涨了
论文里给出了具体数字。在数学奥林匹克级别的题目上,协同进化的证明评分者比之前的最佳水平高出 9% 的准确率。在科学论文写作任务上(用一组 AI 评委来打分),协同进化的写手比之前的最佳自进化智能体高出 1.78 到 1.86 倍的接收率。
这些提升不是靠堆算力换来的。因为协同进化的代码审查者只需要查询一次智能体的输出,而不是反复跑测试套件,所以红皇后哥德尔机在完成 Polyglot 基准测试改进时,用的 token 数比之前的最佳系统少了 1.35 到 1.72 倍。
还有一个细节值得说。在科学写作领域,之前最强的基线评分者会把 AI 生成的论文以高达 1.91 倍于人类论文的比例”放行”——这是 AI 评判的一个已知失效模式,评分者太好说话了。红皇后哥德尔机在每个周期边界组装一组对抗性 AI 提交物,专门奖励那些能正确识别并拒绝这些”水论文”的新评估者。几轮进化下来,得到的评委对人类和 AI 论文用了同等的严格程度,同时在留存验证集上保持了 80% 的准确率。
安全护栏本身,也是一个静态基准
论文的作者们很坦诚地讨论了系统的局限。他们用来防止评估者失控的护栏,是一个人类标注的留存验证数据集。只要这个数据集还能提供可靠信号,系统就有一个”锚”。但这个问题其实被推到了更高一层的抽象上——如果 AI 系统足够强,它会不会也开始”刷”这个验证集?
这就是论文留下来的核心开放问题。作者在论文里说,他们的系统是”初步的实证调研”,打算在未来版本里探索更长的搜索视野。但不管怎么说,一个没有天然停止条件的改进循环,现在从理论变成了可以实际运行的代码。
2026 年 2 月的国际 AI 安全报告已经把递归自我进化基础设施列为跨国安全威胁。Jack Clark 的 60% 概率预测,现在看起来不像几个月前那么遥远了。英伟达作为 AI 算力的实际垄断者,亲自下场做递归自我进化研究,这个信号本身就很值得玩味——他们是想看清这个技术的边界,还是想确保自己在这场竞赛里不掉队?
论文预印本:The Red Queen Gödel Machine: Co-Evolving Agents and Their Evaluators — arXiv:2606.26294
发布时间:2026年6月24日(论文)、2026年6月28日(媒体报道)
发表回复