Anthropic 发布 Claude Sonnet 5，跑智能体任务更便宜了

作者：

在

基础模型公司的军备竞赛又换了新赛道。过去几个月里，大家比的是谁的模型更会聊天、谁在基准测试上刷分更高。现在风向变了，各家都在秀自己的模型有多会”干活”——也就是跑智能体任务的能力。

Anthropic 今天推出了 Claude Sonnet 5。这款中端模型的定位很明确：性能接近旗舰款 Opus 4.8，但价格要便宜一大截。按照 Anthropic 的说法，Sonnet 5 在规划、工具调用（浏览器、终端）、自主运行这些方面的表现，放在几个月前只有更大、更贵的模型才够用。

智能体能力成了标配，接下来比什么？

这个叙事听着耳熟，因为 OpenAI 和 Google 前几天也是这么说的。OpenAI 上周预览发布的 GPT-5.6 Sol 同样主打智能体能力，允许用户把长任务拆给多个子智能体去跑。Google 五月份推出的 Gemini 3.5 Flash 更是直接把定位从”对话聊天机器人”改成了”能规划、能构建、能迭代真实工作的智能体工具”。

Sonnet 5 的发布确认了一件事：智能体能力已经在各个价位段变成了 baseline 预期。接下来的差异化竞争，不再是”谁能更好地跑智能体”，而是”谁能跑得更便宜、更可靠，还不需要人盯着”。

价格先低后高，意在抢开发者

Sonnet 5 的定价策略有点意思。从今天到8月31日，输入 token 价格是每百万个2美元，输出 token 每百万个10美元。8月31日之后，价格会涨到每百万输入3美元、每百万输出15美元。

这个定价比 Opus 4.8 便宜，也比 OpenAI 的 GPT-5.5 和 Google 的 Gemini 3.1 Pro 便宜。当然，还是比 Gemini 3.5 Flash 贵一些。Anthropic 显然在用低价窗口期吸引开发者在 Sonnet 5 上构建应用，等大家用习惯了，再提价。

Claude Sonnet 5 概念图 — Anthropic 发布 Claude Sonnet 5，主打智能体任务能力

跑分数据：离旗舰款越来越近

Anthropic 提供的基准测试数据显示，Sonnet 5 比起上一代 Sonnet 4.6 有明显提升。在智能体编程测试上，Sonnet 5 得分63.2%，Opus 4.8 是69.2%，而 Sonnet 4.6 只有58.1%。在知识工作基准测试中，Sonnet 5 甚至略微超过了 Opus 4.8——后者一向以处理最难的判断类任务和深度研究著称。

Zapier 高级工程师 Daniel Shepard 在 Anthropic 的博客里说了一句话很能说明问题：”我们给 Claude Sonnet 5 派了一个两阶段任务——更新 Salesforce 客户层级、给企业联系人发产品发布通知——它从头到尾跑完了。”他说这话的潜台词是：以前的版本跑到一半就卡住了。

安全表现也在提升

智能体跑起来了，但跑偏了怎么办？Anthropic 说 Sonnet 5 比起 Sonnet 4.6，在”不合作滥用”和”不被欺骗”这两个指标上有明显进步。具体来说，它更善于拒绝恶意请求，也更不容易被提示词注入攻击绕过。幻觉和谄媚行为的出现频率也比 Sonnet 4.6 低。

当然，跟 Opus 4.8 和 Claude Mythos Preview 比，Sonnet 5 在处理危险行为的能力上还是有差距。Anthropic 在博客里坦白说：”评估显示，它执行危险网络安全任务的能力比我们目前的 Opus 系列模型低得多。”这句话其实是在告诉企业用户：如果你要跑高危任务，还是得用 Opus。

Lovable 联合创始人 Fabian Hedin 说了一句挺实在的话：”我们把强大的工具交到数百万构建者手里，一个知道什么时候该说’不’的模型，和知道怎么构建的模型一样重要。”

📎 原文来源：Anthropic launches Claude Sonnet 5 as a cheaper way to run agents | TechCrunch

AI AI Agent AI技术 AI模型 AI编程 Anthropic Claude

Anthropic 发布 Claude Sonnet 5，跑智能体任务更便宜了

智能体能力成了标配，接下来比什么？

价格先低后高，意在抢开发者

跑分数据：离旗舰款越来越近

安全表现也在提升

评论

发表回复 取消回复

更多文章

英伟达多了个真对手，Etched 芯片拿到 10 亿美元订单

Anthropic 发布 Claude Sonnet 5，跑智能体任务更便宜了

AI agent 进了手机键盘，以后打字就能直接办事

这家被所有投资人拒绝的AI芯片公司，现在估值50亿美元

发表回复取消回复