IBM搞了个企业IT基准测试，结果把前沿AI模型全 underneath 50%分数线

作者：

在

大语言模型在各种排行榜上吊打人类已经不是新闻了。编码、数学、逻辑推理，GPT和Claude们基本想考多少考多少。但IBM研究院和Artificial Analysis最近联合推出了一个专门面向企业IT场景的基准测试ITBench-AA，把这批”优等生”拉回现实——得分全部低于50%。

这个测试的核心区别在于：它不考”答题”，而是考”做事”。

ITBench-AA评估的是AI Agent在企业IT环境中自主行动的能力——不是回答问题，而是真正去排查故障、管理配置、处理工单。

通用的AI基准测试有个通病：题目是干净的，输入是结构化的，正确答案是明确的。但真实的企业IT环境完全不是这样。

想象一下：某个生产环境报警了，日志分散在三台服务器和一个云服务上，错误信息是模糊的，相关文档散落在内部Wiki的废弃页面里。一个合格的IT工程师会知道先查什么、忽略什么、什么时候需要升级工单。而当前的前瞻模型，即使逻辑推理能力很强，在这种”脏”环境里的表现就掉下来了。

ITBench-AA试图模拟的就是这种复杂度。它要求AI Agent不仅能”理解”问题，还要能规划多步行动、在过程中根据新信息调整策略、并且在不确定时知道停止而非瞎猜。

低于50%的意思不是说这些模型”不能用”，而是说它们还没达到”可以无人监督地自主处理企业IT任务”的水平。这个门槛其实挺高的——企业环境里一个错误的自动化操作可能导致服务中断甚至数据丢失，所以准确率要求天然就高。

但这个结果的另一层含义是：AI Agent要真正进入企业核心运维流程，还有相当距离。现在的Agent更适合做”辅助”角色——给IT工程师提供建议、帮忙查文档、生成脚本草稿——而不是直接接管。

ITBench-AA的出现至少会带来两个变化。第一，它给AI公司和中国企业提供了一个清晰的改进方向——不再是模糊的”提升推理能力”，而是具体的”在多步IT运维场景中减少错误率”。

第二，它会推动更多行业建立自己的”Agent能力基准”。IT运维只是第一个，类似的基准测试很可能出现在法律、医疗、金融合规等领域。这些领域的共同点是：任务复杂、容错率低、需要多步推理。

对从事AI Agent开发的团队来说，这个基准测试是个很有价值的参考。它告诉你：别只盯着MMLU和HumanEval了，去看看你的Agent在”脏”环境里到底行不行。

评论