英伟达与剑桥大学发布「红皇后哥德尔机」——AI终于学会了给自己出难题

如果你用过最新的AI写代码,你会发现一个奇怪的现象:它解题越来越快,但出的题却越来越水。这是因为所有自我进化的AI都卡在同一个盲点上——考官永远不换。

2026年6月24日,剑桥大学、英伟达等13位研究者在arxiv发布了一篇论文,标题叫《红皇后哥德尔机:协同进化的智能体与评估者》。光看名字就知道,他们想干的事有点野——让AI的考官也跟着考生一起进化。

红皇后哥德尔机AI自我进化概念图
红皇后哥德尔机:AI评估者协同进化概念图 | 图源:AI生成

以前的AI自我改进,到底卡在哪

要理解这篇论文在解决什么问题,得先搞懂之前的所有AI自我改进系统是怎么工作的。

早在2003年,AI先驱Jürgen Schmidhuber提出了一个理论框架,叫「哥德尔机」——一个能改写自己代码的程序,但前提是它得先用数学证明来证明改写是改进。这个要求太难了,20多年来哥德尔机一直停留在纸面上。

2024年以后,研究者想出了实用化的近似方案:让AI生成一堆变异代码,放进沙箱里跑,留下去掉的。这套方法在软件工程基准测试上确实跑出了成绩,但它有一个根本性的限制——考官是固定的。不管AI进化到哪一步,打分的标准始终不变。

经济学里有个古德哈特定律:一个指标一旦变成目标,它就不再是一个好指标。AI对着固定考官刷题,刷到最后考官的分数已经说明不了真实能力了。

红皇后机到底改了什么

论文提出的核心机制叫「受控效用进化」。通俗地说,就是把改进过程分成一个个「 epoch」(时代),每个时代内部考官不动,保证学习信号稳定;但时代和时代之间,考官可以被替换——前提是替补考官在人类标注的真题集上考得比现任好。

这里有意思的是「选择性擦除」机制:旧考官被换掉之后,它打过分的记录会被删掉,防止带偏的记忆污染下一轮的训练信号。整条链路形成了一个闭环:AI做题 → 考官打分 → 时代更替 → 考官进化 → AI面对更难的题目。

起这个名字其实有个典故。1973年生物学家Leigh Van Valen提出「红皇后假说」:物种必须不断进化,才能维持相对于其他进化物种的适应性。论文作者觉得这跟AI的场景一模一样——考官不进化,就等于生物学上的功能性灭绝。

实验数据:数学证明和论文写作都有提升

光有理论框架不够,论文拿出了具体数字。

  • 奥数级数学:协同进化的证明评分器比之前的最佳方法准确率高出9个百分点。
  • 科学论文写作:协同进化的写手在AI评审团评估下,接收率比之前的自我改进智能体高出1.78至1.86倍。
  • 效率:因为协同进化的代码审查器只查询一次智能体输出(而不是反复跑测试套件),完成Polyglot基准改进时使用的token数比之前的最佳系统少1.35至1.72倍。

还有一个细节值得说。在科学写作领域,最强的基线评分器会把AI生成的论文以高达1.91倍的速率「放行」——这是AI评判中已知的失败模式。红皇后机通过在每个时代边界组装对抗性AI提交物,专门奖励能正确识别并拒掉它们的评分器,把这个偏差校正了回来。


安全边界:当 safeguard 本身也成为静态基准

论文里最值得玩味的部分,是作者自己承认的安全局限。

现在的 safeguard 是那个「人类标注的真题集」——候选考官必须在上面考得好,才能接任。但问题来了:这个真题集本身,就是更高抽象层次上的一个静态基准。如果AI系统足够强,它会不会像之前的系统刷题一样,把真题集也刷穿?

论文里把这个问题直白地写了出来:相比静态评估标准,「松绑了收敛保证」。翻译过来就是:我们知道这样更好,但不能完全保证不会跑偏。

这个时间点发这样的论文,外界难免把它跟Anthropic联合创始人Jack Clark的预测联系在一起。2026年5月,Clark在牛津宇宙学讲座上给出过一个概率:到2028年底,完全自主的递归自我改进AI有60%的可能性会出现。红皇后机论文没有确认或否定这个时间线,但它把「协同进化评估者」这个关键缺失的拼图,从理论提案变成了可以运行的经验系统。

2026年2月的国际AI安全报告已经把递归自我改进基础设施列为跨国别的国家级安全风险。Clark呼吁在前沿实验室里先建好「刹车踏板」,再让能力的环路完全闭合。

红皇后机目前还只是一篇预印本,没有完成同行评审,作者也把它描述为「初步的经验性调查」。但「没有天然停止条件的改进环路」这个东西,现在是从纸上走到了代码里。

📎 原文来源:The Red Queen Gödel Machine: Co-Evolving Agents and Their Evaluators (arXiv:2606.26294) | 报道:TechTimes

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注