Anthropic 发布 Claude Sonnet 5,跑智能体任务更便宜了

基础模型公司的军备竞赛又换了新赛道。过去几个月里,大家比的是谁的模型更会聊天、谁在基准测试上刷分更高。现在风向变了,各家都在秀自己的模型有多会”干活”——也就是跑智能体任务的能力。

Anthropic 今天推出了 Claude Sonnet 5。这款中端模型的定位很明确:性能接近旗舰款 Opus 4.8,但价格要便宜一大截。按照 Anthropic 的说法,Sonnet 5 在规划、工具调用(浏览器、终端)、自主运行这些方面的表现,放在几个月前只有更大、更贵的模型才够用。

智能体能力成了标配,接下来比什么?

这个叙事听着耳熟,因为 OpenAI 和 Google 前几天也是这么说的。OpenAI 上周预览发布的 GPT-5.6 Sol 同样主打智能体能力,允许用户把长任务拆给多个子智能体去跑。Google 五月份推出的 Gemini 3.5 Flash 更是直接把定位从”对话聊天机器人”改成了”能规划、能构建、能迭代真实工作的智能体工具”。

Sonnet 5 的发布确认了一件事:智能体能力已经在各个价位段变成了 baseline 预期。接下来的差异化竞争,不再是”谁能更好地跑智能体”,而是”谁能跑得更便宜、更可靠,还不需要人盯着”。

价格先低后高,意在抢开发者

Sonnet 5 的定价策略有点意思。从今天到8月31日,输入 token 价格是每百万个2美元,输出 token 每百万个10美元。8月31日之后,价格会涨到每百万输入3美元、每百万输出15美元。

这个定价比 Opus 4.8 便宜,也比 OpenAI 的 GPT-5.5 和 Google 的 Gemini 3.1 Pro 便宜。当然,还是比 Gemini 3.5 Flash 贵一些。Anthropic 显然在用低价窗口期吸引开发者在 Sonnet 5 上构建应用,等大家用习惯了,再提价。

Claude Sonnet 5 概念图
Anthropic 发布 Claude Sonnet 5,主打智能体任务能力

跑分数据:离旗舰款越来越近

Anthropic 提供的基准测试数据显示,Sonnet 5 比起上一代 Sonnet 4.6 有明显提升。在智能体编程测试上,Sonnet 5 得分63.2%,Opus 4.8 是69.2%,而 Sonnet 4.6 只有58.1%。在知识工作基准测试中,Sonnet 5 甚至略微超过了 Opus 4.8——后者一向以处理最难的判断类任务和深度研究著称。

Zapier 高级工程师 Daniel Shepard 在 Anthropic 的博客里说了一句话很能说明问题:”我们给 Claude Sonnet 5 派了一个两阶段任务——更新 Salesforce 客户层级、给企业联系人发产品发布通知——它从头到尾跑完了。”他说这话的潜台词是:以前的版本跑到一半就卡住了。


安全表现也在提升

智能体跑起来了,但跑偏了怎么办?Anthropic 说 Sonnet 5 比起 Sonnet 4.6,在”不合作滥用”和”不被欺骗”这两个指标上有明显进步。具体来说,它更善于拒绝恶意请求,也更不容易被提示词注入攻击绕过。幻觉和谄媚行为的出现频率也比 Sonnet 4.6 低。

当然,跟 Opus 4.8 和 Claude Mythos Preview 比,Sonnet 5 在处理危险行为的能力上还是有差距。Anthropic 在博客里坦白说:”评估显示,它执行危险网络安全任务的能力比我们目前的 Opus 系列模型低得多。”这句话其实是在告诉企业用户:如果你要跑高危任务,还是得用 Opus。

Lovable 联合创始人 Fabian Hedin 说了一句挺实在的话:”我们把强大的工具交到数百万构建者手里,一个知道什么时候该说’不’的模型,和知道怎么构建的模型一样重要。”

📎 原文来源:Anthropic launches Claude Sonnet 5 as a cheaper way to run agents | TechCrunch

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注