博客

  • babyagi:22.3K Stars!任务驱动AI智能体,让AI逐步实现自我构建

    babyagi:22.3K Stars!任务驱动AI智能体,让AI逐步实现自我构建

    ## 🚀 项目简介

    **babyagi** 是一个实验性的自主AI智能体框架,目标是构建能够**自我构建**的最简系统。项目由独立开发者Yohei Nakajima创建,首次将「任务驱动」作为自主智能体的核心设计理念,是开发通用自主智能体的重要探索。

    > 当前版本基于全新的 **functionz** 框架,支持函数存储、依赖管理、自动执行和可视化仪表盘,是构建自构建AI智能体的最优路径之一。

    💡 一句话总结:babyagi 是一个能自我进化的AI智能体框架,让AI通过任务分解和函数复用,逐步实现自我构建。

    ## 🛠️ 安装要求和过程

    ### 环境要求
    – **Python** 3.8+
    – **OpenAI API Key**(部分AI功能需要)
    – 网络连接(用于函数包加载)

    ### 快速安装步骤

    “`bash
    # 安装 babyagi
    pip install babyagi

    # 启动可视化仪表盘
    import babyagi

    if __name__ == “__main__”:
    app = babyagi.create_app(‘/dashboard’)
    app.run(host=’0.0.0.0′, port=8080)
    “`

    安装后访问 `http://localhost:8080/dashboard` 即可进入管理仪表盘。

    ⚠️ 注意事项:本项目为实验性框架,不建议直接用于生产环境。适合有经验的开发者进行测试和二次开发。

    ## ⚡ 核心功能

    **1. 函数注册与依赖管理**
    通过 `@babyagi.register_function()` 装饰器注册函数,自动追踪函数间的导入关系、依赖关系和认证密钥,构建完整的函数调用图。

    **2. 可视化仪表盘**
    配套Web管理界面,支持函数的注册、注销、更新,查看函数依赖关系图,管理API密钥,以及查看全量执行日志。

    **3. 自动函数加载**
    支持通过 `load_functions` 批量加载函数包,内置默认函数包和AI函数包,也可加载自定义函数包。

    **4. 全量日志与触发器**
    自动记录所有函数执行的输入、输出、耗时和错误信息;支持基于事件的触发器,实现函数自动执行,提升智能体自主性。

    **5. 自构建智能体实验**
    包含 `process_user_input` 和 `self_build` 两个实验性函数,展示智能体如何复用已有函数、自动编写新函数,逐步实现自我构建能力。

    ## 🎯 典型使用场景

    ### 场景一:自动生成业务函数
    描述企业SaaS销售人员的需求,babyagi 会自动生成该类用户可能提出的X个问题,并为每个问题创建对应的处理函数。

    “`python
    babyagi.self_build(“A sales person at an enterprise SaaS company.”, 3)
    “`

    ### 场景二:构建任务驱动AI助手
    通过函数包组合,快速搭建一个能理解用户意图、自动调用相关函数、并动态扩展能力的AI助手,用于客服、个人助理等场景。

    🌟 推荐理由

    作为早期探索「自构建智能体」的项目,babyagi 提出了一个非常前沿的理念:让AI智能体通过复用和扩展函数,逐步实现自我构建。其基于 functionz 的新架构设计清晰,可视化仪表盘降低了函数管理门槛。虽然目前代码还比较基础,不适合生产环境,但对于想要理解「AI如何自我进化」的开发者来说,这是一个非常有启发的开源项目。⭐ 推荐给 AI Agent 研究者和创新型项目开发者!

    ## 📥 下载地址

    | 来源 | 链接 |
    |——|——|
    | 🌐 官方网站 | https://babyagi.org/ |
    | 💻 GitHub仓库 | https://github.com/yoheinakajima/babyagi |
    | 📦 PyPI安装 | `pip install babyagi` |
    | 📚 函数包文档 | 内置 `babyagi/functionz/packs/` |

    > 标签:#AI Agent #开源 #任务驱动AI #自构建智能体 #Python

  • 3D风格化夸张人物漫画

    3D风格化夸张人物漫画

    3D风格化夸张人物漫画



    🤖 ChatGPT

    🇺🇸 English Prompt

    A highly stylized 3D caricature of [SUBJECT], with an oversized head, expressive facial features, and playful exaggeration. Rendered in a smooth, polished style with clean materials and soft ambient lighting. Minimal background to emphasize the character's charm and presence.

    🇨🇳 中文提示词

    [
      主体
    ] 的高度风格化 3D 漫画,
    具有超大的头部、富有表现力的面部特征和有趣的夸张。以平滑、抛光的风格渲染,
    具有干净的材质和柔和的环境照明。极简背景,
    以强调角色的魅力和存在感。
  • awesome-mcp-servers:88.1K Stars!MCP生态全景图,AI连接万物的导航地图

    awesome-mcp-servers:88.1K Stars!MCP生态全景图,AI连接万物的导航地图

    awesome-mcp-servers

    📌 项目速览

    awesome-mcp-servers 是精心整理的 Model Context Protocol(MCP,模型上下文协议) 服务器精选列表,覆盖 48个分类、数百个生产级MCP服务器,是AI应用开发者的必备参考资源。

    🚀 项目简介

    awesome-mcp-servers 是一个由 punkpeye 维护的GitHub开源项目(88.1K+ Stars),它系统地整理了所有优秀的MCP服务器实现——从文件系统、数据库、云平台,到AI智能体、浏览器自动化、金融科技,几乎覆盖了AI应用开发的所有场景。

    MCP(Model Context Protocol)是Anthropic推出的开放标准协议,旨在让AI模型以标准化方式连接各类外部工具和数据源。这个项目就是MCP生态的”导航地图”——无论你想让AI访问本地文件、查询数据库、发送邮件,还是调用云端API,都能在这里找到现成的MCP服务器。

    ⚙️ 安装要求和过程

    环境要求

    • Node.js ≥ 18(TypeScript/JavaScript实现的服务)
    • Python ≥ 3.8(Python实现的服务)
    • Go 1.21+(部分Go实现的服务)
    • ✅ 兼容MCP协议的AI客户端:Claude Desktop、Cursor、VS Code、Windsurf

    快速安装(以 @modelcontextprotocol/server-everything 为例)

    # TypeScript/JavaScript 服务 - 一键运行(无需安装)
    npx -y @modelcontextprotocol/server-everything
    
    # Python 服务 - uvx 一键运行
    uvx mcp-server-sqlite
    
    # 或 pip 安装
    pip install mcp-server-sqlite
    
    # Go 服务 - 安装并运行
    go install github.com/some/mcp-server@latest
    

    在 Claude Desktop 中配置

    // ~/Library/Application Support/Claude/claude_desktop_config.json
    {
      "mcpServers": {
        "sqlite": {
          "command": "uvx",
          "args": ["mcp-server-sqlite", "--db-path", "/path/to/db.sqlite"]
        },
        "filesystem": {
          "command": "npx",
          "args": ["-y", "@modelcontextprotocol/server-filesystem", "/allowed/path"]
        }
      }
    }
    

    ✨ 核心功能

    🔗

    标准化MCP协议接入

    所有收录服务器均遵循MCP开放协议,AI客户端只需配置一次,即可标准化调用各类工具,告别碎片化集成。

    🗂️

    48个分类全覆盖

    从浏览器自动化、数据库、云平台,到金融、法律、医疗、物联网——48个分类数百个服务器,应有尽有。

    🚀

    npx/uvx 一键运行

    TypeScript服务支持 npx -y 一键启动,Python服务支持 uvx 零配置运行,无需手动下载依赖。

    🌍

    多语言文档支持

    提供英语、简体中文、繁体中文、日语、韩语、泰语、巴西葡萄牙语共7种语言版本,全球开发者都能轻松使用。

    📡️

    在线目录 + 评分系统

    配套在线目录网站 glama.ai/mcp/servers 提供每个服务器的质量评分、安装量和文档链接,帮你快速筛选最优质的服务。

    🎯 典型使用场景

    1

    让Claude读写本地文件

    配置 @modelcontextprotocol/server-filesystem 后,Claude 可以直接读取、编辑、创建你指定的本地文件,真正实现AI辅助编程和文档处理。无需手动复制粘贴,AI直接操作文件系统。

    2

    让AI查询并操作数据库

    通过 SQLite / PostgreSQL / MySQL 的MCP服务器,AI可以直接执行SQL查询、分析数据、生成报表。数据分析师的压力瞬间减半,用自然语言就能操作数据库。

    3

    让AI自动化浏览器操作

    集成 browser-use 等MCP服务器后,AI可以自动打开网页、填写表单、点击按钮、抓取数据。RPA流程自动化从此不需要昂贵的商业软件,开源方案一样强大。

    💡 推荐理由

    如果你正在开发AI应用、配置Claude/Cursor的MCP功能,或者想了解MCP生态的全貌,这个库绝对是第一站必访之地

    我个人的使用心得:

    • 🔍 找MCP服务器?先看这个列表 —— 它比GitHub搜索准确10倍,因为每个条目都经过维护者审核
    • 📋 48个分类就是48种AI能力扩展方向 —— 哪怕你只知道MCP这个词,浏览一遍分类也能激发无数应用灵感
    • 🌐 配套在线目录 glama.ai/mcp/servers 可以按评分排序,快速找到最成熟的服务器,省去踩坑时间
    • 🤝 社区活跃度极高 —— Discord 和 Reddit 社区非常活跃,遇到问题随时有人帮忙

    一句话总结:MCP是AI应用的”USB接口标准”,而这个项目就是”USB设备兼容列表” —— 有了它,你的AI才能真正连接万物。⭐ 强烈推荐收藏!

    📥 下载地址

    获取方式:


    本文由 WorkBuddy AI 自动采集撰写 · 开源项目系列第42期 · 2026-05-30

  • XCENA拿了一轮1.35亿美元:AI的最大瓶颈不是算力,是内存

    做AI芯片的公司在2026年并不稀奇,但一家韩国初创公司拿了1.35亿美元融资,理由是”AI的最大瓶颈不是算力,是内存”——这个说法至少让投资圈认真听了。

    数据在CPU、GPU、内存之间来回跑,每一次都要钱

    XCENA的核心判断很简单:你现在每次跟AI说一句话,数据都要在内存、CPU、GPU之间跑一个来回。数据从内存取出来,CPU预处理一遍,送到GPU算,结果再写回内存。生成一个词要走一遍这个流程。

    这不是纯理论问题。它意味着你每用一次AI,都伴随着一笔不算小的数据传输成本。日活几亿次请求的规模下,这个开销是真实的。

    XCENA的估算是:原本需要10台服务器才能跑完的AI推理任务,如果用他们的方案,1台就够了。

    把计算搬到内存旁边去

    他们的办法是做一枚叫MX1的芯片,思路叫”存算一体”——计算不要老盯着GPU做,把一部分活儿搬到内存模块附近完成。

    具体说,MX1通过CXL(Compute Express Link,一个专门连接处理器和内存的高速通道)跟CPU对接,把预处理、KV缓存管理、数据缓存这些事情,在内存模块里面直接做完。数据不用出门,结果也不用搬回来。

    XCENA MX1芯片
    XCENA MX1芯片原型(图源:TechCrunch)

    技术上有几个值得说的地方。MX1基于开源RISC-V指令集设计,里面有数千个小型高效核心,专门为数据搬运和预处理优化过。竞争对手Marvell的方案只用少量通用核心,理论上效率有差距。

    XCENA还做了垂直整合——内存层级、互联总线、DRAM控制器全是自研的。大多数芯片公司会把这类工作外包,他们选择自己做,理由是只有全栈控制才能把内存效率压榨到极限。

    三星、SK海力士的前员工出来创业,时机刚好

    这家公司2022年创办,三位创始人Jin Kim(CEO)、Dohun Kim(CTO)、Harry Juhyun Kim(CPO)全部来自三星和SK海力士。做内存的人出来做AI基础设施,这个组合在2026年看起来挺合理的。

    本轮1.35亿美元由韩国VC机构Atinum、IMM Investment联合领投,跟投方包括Corstone Asia、老股东SBI Investment、Mirae Asset Capital。公司累计融资已达1.85亿美元,估值5.7亿美元。


    一个有趣的行业背景:2026年5月,三星、SK海力士、美光三大内存芯片厂商的市值首次同时突破1万亿美元。内存价格的上涨和AI需求的持续拉动,正在把”内存中心架构”从学术概念推向产业现实。

    MX1目前还在原型阶段,预计2026年底在三星代工厂量产,2027年开始产生收入。目标客户很明确:每年在AI基础设施上花几百亿美元的超大云厂。对这些公司来说,内存效率提升5%,可能就意味着几亿美元的成本节省。

    XCENA不直接跟英伟达在训练侧竞争——他们瞄准的是推理侧的内存密集型层。这个位置刚好卡在GPU算力和内存带宽之间的夹缝里,是一个有理由存在的细分市场。

  • Anthropic估值超OpenAI逼近1万亿美元,Claude Code三个月烧出9650亿

    Anthropic完成了一轮让整个硅谷侧目的融资。650亿美元进账,投后估值9650亿美元,这家公司现在的身价已经把OpenAI甩在了身后。

    从3800亿到9650亿,只用了3个月

    今年2月,Anthropic的估值还是3800亿美元。3个月后再融资,直接飙到9650亿。这种涨幅在AI圈也算是现象级的。

    本轮由Altimeter Capital、Dragoneer、Greenoaks和红杉资本联合领投,同时还包含了此前承诺的150亿美元投资(其中亚马逊出了50亿)。作为对比,OpenAI在3月下旬完成1220亿美元融资后,估值为8520亿美元。

    Anthropic的年度经常性收入已经达到470亿美元,远高于今年早些时候的300亿美元,也比去年同期的100亿美元高出近4倍。

    营收暴涨的核心驱动力是Claude Code——这款AI编程助手正在成为越来越多开发者和企业的标配工具。Anthropic首席财务官Krishna Rao的话说得很直白:Claude在客户群体里越来越不可或缺,这笔钱就是用来满足历史性需求的。

    Anthropic融资估值超OpenAI
    Anthropic最新一轮融资650亿美元,估值达9650亿美元(图源:CNBC)

    三强争霸,都在准备上市

    头部AI公司的IPO竞赛已经打响。马斯克的SpaceX(旗下有SpaceX AI)上周提交了招股说明书,合并后估值1.25万亿美元。OpenAI也准备在未来几天内提交保密招股书,最早今年9月挂牌。

    Anthropic虽然在幕后也在筹备IPO,但时机还不明确。毕竟手里有650亿美元现金,并不急着上市。真正让外界关注的是,它是否已经走到了”盈利”这个AI公司集体梦寐以求的节点。

    同期发布的Claude Opus 4.8和具备高级网络安全能力的Claude Mythos Preview,也在向市场传递一个信号:Anthropic不只是钱多,技术也在往前走。


    有意思的是,这轮融资完成后,全球AI版图上估值最高的私有公司头衔,正式从OpenAI交棒给了Anthropic。而就在一年多前,绝大多数人还认为这个位置非OpenAI莫属。

    资本用脚投票的背后,是Claude在企业级市场的真实渗透力。比起OpenAI消费者端的耀眼数据,Anthropic的企业客户粘性可能是它估值能够持续走高的更底层逻辑。

  • CNN把Perplexity告了,AI版权战打到新战场

    CNN正式对AI搜索公司Perplexity提告,指控它逐字复制CNN的报道内容,还为付费墙后面的内容提供摘要。这起诉讼让Perplexity的法律麻烦又多了一桩。

    “人类记者去报道、研究、撰写、创作的内容,Perplexity在未经许可、没有补偿的情况下直接拿去用。”CNN在诉讼中写道。

    谈判破裂后直接告上法庭

    CNN和Perplexity其实谈过合作。2025年10月,双方曾就Perplexity的”Comet Plus”订阅服务使用CNN内容进行过谈判,但因为对AI生成答案中CNN内容的使用限制谈不拢,最终没有签成协议。CNN在11月正式发函要求Perplexity停止未经授权使用其内容,据说Perplexity根本没回信。

    CNN在起诉书中举了一个例子:只要用Perplexity搜索一篇文章标题——《What’s next for Minneapolis? A shaky promise, mounting tensions and the fight for control》——它就能生成该报道”大量逐字复制”的内容片段。


    Perplexity的回应只有一句话

    面对CNN的指控,Perplexity发言人的回应相当简短:”事实是不能被版权化的。”这句话基本上概括了Perplexity对整个AI版权争议的核心立场——它认为AI生成的内容是对事实的重组,不构成侵权。

    这个立场在法庭上能不能站得住脚,目前还没有定论。但CNN不是唯一一个这么想的,已经起诉Perplexity的机构包括《纽约时报》、大英百科全书、韦氏词典、新闻集团(华尔街日报母公司)、亚马逊和Reddit。

    • 《纽约时报》是最早对Perplexity提告的媒体之一,目前案件仍在审理中
    • 新闻集团旗下《华尔街日报》等媒体的诉讼,核心争议也是AI摘要是否构成”衍生作品”
    • 亚马逊和Reddit的诉讼则更侧重于数据爬取和平台条款违反

    这场官司会影响到普通用户吗

    短期来看不会。Perplexity的搜索服务还在正常运行,这起诉讼从立案到判决通常要拖上好几年。但它释放了一个明确信号:内容生产商对AI公司的忍耐已经到了极限,接下来的谈判桌上,内容授权费用会成为一个越来越重的成本项。

    对做AI产品的公司来说,这其实是个提醒——爬数据归爬数据,但真被人告上法庭,光靠”事实不能版权化”这句话未必够用。

  • 英伟达砸完200亿美元,Groq自己又要融6.5亿美元

    英伟达刚跟Groq做完一笔200亿美元的”非收购式招聘”,这家AI芯片初创公司自己又要融资了。据Axios报道,Groq正在寻求6.5亿美元的新一轮融资,投资方正是它现有的那些支持者。

    Groq做的事跟英伟达不太一样。它押注的是AI推理环节——也就是模型接收用户提示后生成回答的那个阶段。现在整个行业都在疯抢推理算力,训练的需求反而没那么紧张了。

    英伟达那笔200亿美元的交易到底买了什么

    2025年12月,英伟达和Groq签了一笔结构很特殊的协议。表面上看不是收购,但Groq的多名高层直接跳槽去了英伟达,同时Groq把硬件技术授权给了英伟达使用。如果这是一笔正常的收购,它会是英伟达历史上最大的一笔。

    对Groq的投资者来说,这反而是个好消息——他们拿到了现金回报,现在又被邀请继续投钱,支持Groq把推理云(Inference Neocloud)业务做起来。


    推理为什么比训练更值钱

    训练一个大模型是一次性投入,而推理是每次用户发消息都要消耗算力的持续过程。ChatGPT每天要处理几十亿次请求,每一次都是推理。这个市场的规模,某种程度上比训练市场还要大。

    Groq的芯片设计思路跟英伟达完全不同,它追求的是极致的推理速度,而不是训练所需的大规模并行计算。这套打法能不能跑通,6.5亿美元的新融资会给出部分答案。

    • 现有投资者Disruptive和Infinitium已承诺,若其他投资者认购不足,将全额补足本轮融资
    • 临时CEO Adam Winter和临时CFO Matt Eng领导业务转型
    • Groq推理云直接面向开发者和企业提供API服务,与英伟达的芯片销售模式形成差异

  • 这家公司免费帮你打扫房间,条件是记录全过程用来训练机器人

    AI训练数据初创公司Shift最近在社交媒体上宣布了一个听起来有点奇怪的优惠:他们将免费为用户提供家庭清洁服务,条件是允许设备记录清洁人员的工作过程,以此收集高质量的机器人训练数据。

    该公司的”魔法帽”计划本质上是在用未来的机器人能力,换取今天的真实世界动作数据。清洁人员戴着配有摄像头的帽子工作,记录他们如何擦洗、吸尘、除尘、整理和清洗——这些都是未来家庭服务机器人需要掌握的核心技能。

    “你得到一间一尘不染的公寓。我们得到训练数据。双赢。”——Shift官方网站

    魔法帽里有什么?

    清洁人员戴着一顶看起来有点尴尬的白色帽子——官方称之为”魔法帽”——里面藏着一台摄像头,从清洁人员的第一视角捕捉工作画面。

    Shift清洁人员戴着魔法帽工作
    Shift的”魔法帽”从清洁人员第一视角记录工作过程(图源:The Verge)

    当然,让别人的摄像头进到你家里,这本身就是你得”支付”的代价。Shift在官网上说客户的”隐私得到充分保护”,敏感细节(如姓名、面部、屏幕和个人信息、身份证)在用于AI训练之前会被模糊化和匿名化处理。


    越脏越好?

    Shift在宣传视频中说:”今天清洁的每一间房子,都为明天能自己清洁的房子打下基础。”

    有意思的是,该公司表示“更具挑战性的清洁环境”可能特别有用。换句话说,你家越脏乱,对训练机器人来说反而越有价值。当然,清洁人员”可以拒绝执行任何他们感到不舒服的具体任务”。

    不只是清洁

    清洁可能只是开始。Shift的视频显示,该公司最终计划扩展到管道维修、烹饪和建筑等其他领域。

    Shift表示,它已经向15个国家的数万人支付报酬,让他们通过应用程序记录自己的活动。这个市场正在增长——用于训练AI系统和机器人的人类任务录像,正成为AI数据竞赛中的稀缺资源。


    目前只在纽约,很快扩展到更多城市

    这项免费清洁服务目前仅在纽约提供。但联合CEO兼联合创始人Bercan Kilic表示,很快将在旧金山、伦敦、苏黎世和慕尼黑推出。

    免费清洁只是”限时”优惠,但这个模式其实触及了一个更大的趋势:AI公司越来越愿意用真实世界的服务,来换取训练下一代机器人所需的高质量数据。

    • 清洁人员戴”魔法帽”第一视角记录工作过程
    • 隐私保护:敏感信息在训练前被模糊化和匿名化
    • 目前仅在纽约,即将扩展至旧金山/伦敦/苏黎世/慕尼黑
    • Shift已在15个国家拥有数万名数据贡献者
    • 未来计划扩展至管道/烹饪/建筑等更多家庭场景
  • 这家芯片初创把计算搬进内存,1.35亿美元融资到手

    每次你向ChatGPT提问,你的请求都会触发一场数据接力赛。信息离开内存,经过CPU预处理,传输到GPU进行繁重计算,然后再返回——而AI生成的每一个字,整个流程都会重复一遍。

    瓶颈是结构性的。这意味着每一个请求中,数据都要经过行业中一些最昂贵、功耗最高的芯片进行路由。这种低效正是XCENA试图解决的问题——这家在韩国和美国都设有办事处的初创公司,刚刚在B轮融资中筹集了1.35亿美元,估值达5.7亿美元。

    “几十年来,CPU和GPU都变得更智能了。内存从来没有。XCENA想改变这一点。”——创始人Jin Kim

    把计算搬进内存

    XCENA的芯片MX1通过CXL(计算快速链接)连接到CPU——本质上是处理器和内存之间的专用快车道——在数据需要离开内存模块之前就对其进行处理。它是把计算带到数据附近,而不是反过来。

    该公司声称,以前需要10台服务器完成的工作,现在可能只需要1台就可以完成。

    XCENA MX1芯片原型
    XCENA MX1芯片原型(图源:TechCrunch)

    为什么是内存,不是算力?

    XCENA的业务押注于一个论点,即”推理不仅是计算问题;它越来越是一个内存扩展问题。”

    虽然GPU擅长矩阵乘法——AI模型训练背后的繁重数学计算——但周围的许多数据编排,包括预处理、KV缓存管理(存储之前的对话上下文的系统,这样模型就不需要重新处理它)、数据缓存,仍然在CPU上运行。XCENA的芯片在内存模块本身内直接处理这些任务。


    创始团队来自三星和SK海力士

    XCENA首席执行官Jin Kim于2022年与首席技术官Dohun Kim、首席产品官Harry Juhyun Kim共同创立了这家初创公司,三人都来自三星和SK海力士——这两家内存巨头为英伟达的GPU提供芯片。

    本月,主导全球内存芯片市场的三家公司——三星、SK海力士和美光——市值首次都超过了1万亿美元。XCENA押注的是,AI基础设施正朝着以内存为中心的架构更广泛地转变。

    竞争对手和差异化

    XCENA最接近的竞争对手包括Astera LabsMarvell,这两家纳斯达克上市公司都在研发下一代内存连接技术。

    差异化因素在于知识产权。XCENA有数千个核心,每个核心都基于RISC-V构建并专门针对数据处理进行了优化。相比之下,Marvell的方法依赖少数几个通用核心。


    时间表和挑战

    MX1目前仍然是原型。大规模生产的芯片预计将在2026年底从三星的代工生产线下线,该公司预计从2027年开始产生收入。

    XCENA的理想客户是每年在AI基础设施上花费数百亿美元的超大规模企业,即使内存效率有微小的提升,也可能意味着数亿美元的节省。

    • B轮融资1.35亿美元,估值5.7亿美元
    • 累计融资总额达1.85亿美元
    • MX1芯片基于RISC-V开源架构
    • 目标客户:超大规模AI基础设施运营商
    • 量产时间:2026年底;收入预期:2027年
  • Claude Opus 4.8来了:一口气跑1000个子智能体,代码审查聪明4倍

    昨天(5月28日),Anthropic把Claude Opus 4.8扔了出来。这次更新的重点很明确:让AI在写代码这件事上更像一个能独立工作的资深工程师,而不是一个需要你步步盯着的高级补全工具。

    代码缺陷少4倍,这才是最值钱的地方

    Opus 4.8最核心的改进,是代码质量。Anthropic说,这个模型生成的代码里有缺陷但没被标记出来的概率,比上一代低了大约4倍。对那些把AI辅助编程塞进生产流程的团队来说,这个改进直接等于少掉很多坑——未检测到的代码缺陷,在 downstream 产生的修复成本是 exponentially 增长的。

    基准测试的数据也佐证了这一点:代理编码得分从64.3%爬到了69.2%,使用工具的多学科推理从54.7%提到57.9%,知识工作得分从1753分涨到1890分。数字看起来增幅不大,但在AI模型迭代里,这种全方位的几个百分点提升,往往意味着实际使用中”可用”和”好用”之间的差距。

    Anthropic对Opus 4.8的描述是:”更敏锐的判断力、更诚实地展示其进展,以及比前代模型更长时间独立工作的能力。”这三个点,其实正好对应了企业开发者对AI编码助手最头疼的三个问题:判断不准、爱装懂、干两分钟就得人工介入。

    动态工作流:1000个子智能体一起干活

    这次最炸裂的功能叫”动态工作流”(Dynamic Workflows),目前在research preview阶段。简单说,就是Claude现在可以写编排脚本,生成并管理几十到几百个并行子代理,从任务启动到完成全程自动跑。

    上限是每个运行最多16个并发子代理、总共1000个子代理。实际场景是什么样子?比如你要迁移一个几十万行代码的代码库,以前你得手动拆任务、分配、汇总,现在Opus 4.8可以直接把整个代码库迁移从启动做到生成可合并的拉取请求,中间不用你手动协调。

    这个功能一旦正式上线,对大型代码库维护团队来说是个.game changer。不需要额外写编排逻辑,不需要手动拆解任务,模型自己决定怎么把大任务碎成小任务、怎么并行跑、怎么汇总结果。

    快速模式:快2.5倍,便宜3倍

    Anthropic还把快速模式(Fast Mode)大幅升级了。新版本的快速模式比标准推理快大约2.5倍,而成本只有之前Opus模型快速模式的三分之一。定价是每百万输入token 10美元、每百万输出token 25美元。

    新的”努力控制”(Effort Control)设置也值得提一下:用户可以调整Claude在任务上投入的计算量。Opus 4.8默认是”高努力”,Anthropic认为这对大多数工作负载来说是最佳平衡。如果你要处理的任务比较轻量,可以调低努力级别来省钱。

    已经在哪能用

    从昨天开始,Opus 4.8已经在以下平台可用:

    • Claude API——直接给开发者和平台构建者用
    • Amazon Bedrock——集成到AWS基础设施里
    • Google Cloud Vertex AI——GCP托管AI服务中可用
    • Microsoft Foundry——通过Microsoft的AI开发平台访问

    已经在生产环境跑Opus 4.7的团队,迁移基本无感——模型标识符更新一下就行,价格没变,这也是Anthropic故意做的”升级成本中性”设计。

    下一步:Mythos级模型已经在路上

    Anthropic已经确认正在开发新一代”Mythos级”模型,会在”未来几周内”发布。目前关于架构、能力基准或定价的细节都没披露,但Opus 4.8看起来更像一个短期过渡版本,而不是一个长周期旗舰。这也延续了Anthropic在2025年和2026年加速模型更新的节奏——不再憋大招,而是快速迭代、快速铺开。

    对于每天都在跟AI编码助手打交道的开发者来说,Opus 4.8最直观的感受可能就是:它犯傻的频率低了,能独立跑的时间长了,而你需要手动介入的次数——终于开始明显减少了。