标签: 动态工作流

  • Anthropic加速迭代:Opus 4.8发布,动态工作流让AI自己管自己

    Anthropic本周扔出一枚小炸弹——Opus 4.8正式上线,距离上一代4.7发布只隔了41天。这个节奏快得不太正常,因为按照Anthropic过去的习惯,Sonnet和Haiku的更新周期分别是3个月和7个月。41天就推新版本,摆明了是对4.7市场反响不佳的直接回应——用户觉得4.7表现令人失望,那好,赶紧修。

    更大的压力来自竞争对手。就在这41天里,OpenAI的Codex和谷歌的Gemini Flash都发布了重大更新,Anthropic如果被甩开,故事就不好讲了。所以4.8不仅是一次技术迭代,更是一次”我们不能掉队”的公开表态。

    Claude AI logo on smartphone screen
    Anthropic持续加速Claude模型迭代节奏(图源:TechCrunch)

    不只是跑分更好看了

    Opus 4.8在基准测试上继续保持同类模型顶尖水平,但这次Anthropic重点强调的方向是”可靠性”——模型会更主动地标注自己拿不准的地方,减少那些看起来很自信但实际没依据的表述。

    桥水联合公司(Bridgewater Associates)在测试中发现:Opus 4.8会主动标注分析输入和输出中的问题,这是其他模型经常遗漏、只能由用户自己发现的能力。

    这个方向其实挺聪明的。大模型最让人头疼的地方不是”不够聪明”,而是”太自信地胡说”。如果Opus 4.8真的能在这个维度上有实质性进步,对企业和开发者用户来说,价值远不止是跑分高了几分。

    动态工作流,让AI管理AI

    这次发布最值得关注的是一个叫动态工作流(Dynamic Workflows)的新功能,目前处于研究预览阶段。简单说,它让Opus这类大模型能够管理跨数百个并行子代理的复杂任务。

    Anthropic在公告里举了一个很具体的例子:搭配Opus 4.8的Claude Code现在可以完成数十万行代码的代码库级迁移,从启动到合并全流程无需人工过多干预,以现有测试套件作为验证标准。

    • 代码库级任务自动化——不再需要人类一行行盯着
    • 数百个子代理并行调度——AI自己分配任务、自己管理进度
    • 以测试套件为验证标准——输出质量有底线保障

    这个方向透露出的信号是:Anthropic正在把Claude从”对话助手”往”自主任务执行引擎”的方向推。动态工作流如果成熟,意味着AI可以在人类只给一个高层目标的情况下,自己拆解任务、分配子任务、汇总结果、验证质量,形成真正的端到端自动化。


    Mythos模型快要解禁了

    还有一个值得关注的信号:Anthropic在发布内容中暗示,代号为Mythos的顶级模型可能很快结束预览期。4月时Mythos曾做过小规模预览,但因为网络安全方面的担忧,一直处在限制开放状态。

    Anthropic表示安全防护的开发进展很快,预计在未来几周内就能让所有用户用上Mythos级别的模型。如果这个时间表兑现,Anthropic将在前沿模型竞赛中同时拥有Opus(主打可靠性和可操作性)和Mythos(顶级性能)两条产品线,对OpenAI和谷歌的压力会进一步增大。

  • Claude Opus 4.8来了:一口气跑1000个子智能体,代码审查聪明4倍

    昨天(5月28日),Anthropic把Claude Opus 4.8扔了出来。这次更新的重点很明确:让AI在写代码这件事上更像一个能独立工作的资深工程师,而不是一个需要你步步盯着的高级补全工具。

    代码缺陷少4倍,这才是最值钱的地方

    Opus 4.8最核心的改进,是代码质量。Anthropic说,这个模型生成的代码里有缺陷但没被标记出来的概率,比上一代低了大约4倍。对那些把AI辅助编程塞进生产流程的团队来说,这个改进直接等于少掉很多坑——未检测到的代码缺陷,在 downstream 产生的修复成本是 exponentially 增长的。

    基准测试的数据也佐证了这一点:代理编码得分从64.3%爬到了69.2%,使用工具的多学科推理从54.7%提到57.9%,知识工作得分从1753分涨到1890分。数字看起来增幅不大,但在AI模型迭代里,这种全方位的几个百分点提升,往往意味着实际使用中”可用”和”好用”之间的差距。

    Anthropic对Opus 4.8的描述是:”更敏锐的判断力、更诚实地展示其进展,以及比前代模型更长时间独立工作的能力。”这三个点,其实正好对应了企业开发者对AI编码助手最头疼的三个问题:判断不准、爱装懂、干两分钟就得人工介入。

    动态工作流:1000个子智能体一起干活

    这次最炸裂的功能叫”动态工作流”(Dynamic Workflows),目前在research preview阶段。简单说,就是Claude现在可以写编排脚本,生成并管理几十到几百个并行子代理,从任务启动到完成全程自动跑。

    上限是每个运行最多16个并发子代理、总共1000个子代理。实际场景是什么样子?比如你要迁移一个几十万行代码的代码库,以前你得手动拆任务、分配、汇总,现在Opus 4.8可以直接把整个代码库迁移从启动做到生成可合并的拉取请求,中间不用你手动协调。

    这个功能一旦正式上线,对大型代码库维护团队来说是个.game changer。不需要额外写编排逻辑,不需要手动拆解任务,模型自己决定怎么把大任务碎成小任务、怎么并行跑、怎么汇总结果。

    快速模式:快2.5倍,便宜3倍

    Anthropic还把快速模式(Fast Mode)大幅升级了。新版本的快速模式比标准推理快大约2.5倍,而成本只有之前Opus模型快速模式的三分之一。定价是每百万输入token 10美元、每百万输出token 25美元。

    新的”努力控制”(Effort Control)设置也值得提一下:用户可以调整Claude在任务上投入的计算量。Opus 4.8默认是”高努力”,Anthropic认为这对大多数工作负载来说是最佳平衡。如果你要处理的任务比较轻量,可以调低努力级别来省钱。

    已经在哪能用

    从昨天开始,Opus 4.8已经在以下平台可用:

    • Claude API——直接给开发者和平台构建者用
    • Amazon Bedrock——集成到AWS基础设施里
    • Google Cloud Vertex AI——GCP托管AI服务中可用
    • Microsoft Foundry——通过Microsoft的AI开发平台访问

    已经在生产环境跑Opus 4.7的团队,迁移基本无感——模型标识符更新一下就行,价格没变,这也是Anthropic故意做的”升级成本中性”设计。

    下一步:Mythos级模型已经在路上

    Anthropic已经确认正在开发新一代”Mythos级”模型,会在”未来几周内”发布。目前关于架构、能力基准或定价的细节都没披露,但Opus 4.8看起来更像一个短期过渡版本,而不是一个长周期旗舰。这也延续了Anthropic在2025年和2026年加速模型更新的节奏——不再憋大招,而是快速迭代、快速铺开。

    对于每天都在跟AI编码助手打交道的开发者来说,Opus 4.8最直观的感受可能就是:它犯傻的频率低了,能独立跑的时间长了,而你需要手动介入的次数——终于开始明显减少了。