过去几个月,AI 编程工具的用户有个普遍感受:Claude Code 用起来越来越顺手,Cursor 反而有点掉队。这个局面在5月19日变了——Cursor 发布了 Composer 2.5,直接把基准测试成绩拉到了和 Claude Opus 4.7 同一个水平线。
有意思的是,这次 Cursor 没有换底座模型,仍然用的是月之暗面开源的 Kimi K2.5 权重,只是把85%的计算量砸进了后训练。换句话说,同样的底座,靠训练手法把成绩硬拉了上去。
Composer 2.5 在 SWE-Bench Multilingual 拿到79.8%,和 Claude Opus 4.7 的80.5% 只差0.7个百分点。成本却只有后者的约1/10。
价格才是真正的杀手锏
具体定价:输入0.5美元/百万token,输出2.5美元/百万token。作为对比,Claude Opus 4.7 的输入定价大约在20美元/百万token量级。差距是数量级的。
Cursor 为什么要走这条路?直接原因很现实:Cursor 调用 Anthropic 的模型需要付推理费,成本结构是跟着 Anthropic 走的,它没法把 Claude Code 的价格打下来。自研模型是唯一能打出差异化的路径。
长任务能力是这次的重点
AI 编程工具的一个核心痛点是:短任务表现都不错,但任务一拉长(多文件修改、跨步骤依赖、几十轮工具调用),模型就容易失忆或者犯低级错误。
Composer 2.5 针对这个场景做了专项优化。训练方法里有个细节值得说:「功能删除」训练——从可运行代码库里随机删掉某项功能,让模型重新实现并通过测试验证。这种方式生成的训练数据质量远高于人工标注,因为它自带可验证的正确性信号。
另一个训练技巧是带文本反馈的强化学习。不是等整个任务结束才给一个奖励信号(那样太稀疏,模型很难学到东西),而是在模型执行出错的位置直接插入局部提示——比如工具调用失败时,提示可用工具列表——让模型从错误位置开始就能得到针对性反馈。
透明性这块,这次学乖了
上次发布 Composer 2 的时候,Cursor 没有披露模型底座来自 Kimi K2.5,结果被社区扒出来后在 Hacker News 上引发了一轮讨论。这次 Composer 2.5 的发布公告里直接写明了底座来源,算是吃一堑长一智。
目前 Cursor 内部35%的合并 PR 已经由自主 Agent 创建。这个数据背后意思是:模型不只是给人提供代码建议,而是能独立跑完一个功能分支的开发-测试-提 PR 全流程。Composer 2.5 发布首周,Cursor 用户的模型调用量就翻了一倍。
下一步是什么
Cursor 已经宣布正在和 SpaceX AI 合作训练下一代模型,使用 Colossus 2 的百万 H100 等效算力,总计算量会是 Composer 2.5 的10倍。按这个节奏,下一代模型的基准测试成绩还会再往上走一截。
顺带一提,马斯克在 X 上转了 Composer 2.5 的发布推文,确认了 Colossus 2 参与了部分训练。这条转发本身比任何公关稿都更有分量——意味着这家公司的训练基础设施已经得到了业界最挑剔的那批人的认可。
发表回复