标签: AI智能体

  • Claude Opus 4.8来了:一口气跑1000个子智能体,代码审查聪明4倍

    昨天(5月28日),Anthropic把Claude Opus 4.8扔了出来。这次更新的重点很明确:让AI在写代码这件事上更像一个能独立工作的资深工程师,而不是一个需要你步步盯着的高级补全工具。

    代码缺陷少4倍,这才是最值钱的地方

    Opus 4.8最核心的改进,是代码质量。Anthropic说,这个模型生成的代码里有缺陷但没被标记出来的概率,比上一代低了大约4倍。对那些把AI辅助编程塞进生产流程的团队来说,这个改进直接等于少掉很多坑——未检测到的代码缺陷,在 downstream 产生的修复成本是 exponentially 增长的。

    基准测试的数据也佐证了这一点:代理编码得分从64.3%爬到了69.2%,使用工具的多学科推理从54.7%提到57.9%,知识工作得分从1753分涨到1890分。数字看起来增幅不大,但在AI模型迭代里,这种全方位的几个百分点提升,往往意味着实际使用中”可用”和”好用”之间的差距。

    Anthropic对Opus 4.8的描述是:”更敏锐的判断力、更诚实地展示其进展,以及比前代模型更长时间独立工作的能力。”这三个点,其实正好对应了企业开发者对AI编码助手最头疼的三个问题:判断不准、爱装懂、干两分钟就得人工介入。

    动态工作流:1000个子智能体一起干活

    这次最炸裂的功能叫”动态工作流”(Dynamic Workflows),目前在research preview阶段。简单说,就是Claude现在可以写编排脚本,生成并管理几十到几百个并行子代理,从任务启动到完成全程自动跑。

    上限是每个运行最多16个并发子代理、总共1000个子代理。实际场景是什么样子?比如你要迁移一个几十万行代码的代码库,以前你得手动拆任务、分配、汇总,现在Opus 4.8可以直接把整个代码库迁移从启动做到生成可合并的拉取请求,中间不用你手动协调。

    这个功能一旦正式上线,对大型代码库维护团队来说是个.game changer。不需要额外写编排逻辑,不需要手动拆解任务,模型自己决定怎么把大任务碎成小任务、怎么并行跑、怎么汇总结果。

    快速模式:快2.5倍,便宜3倍

    Anthropic还把快速模式(Fast Mode)大幅升级了。新版本的快速模式比标准推理快大约2.5倍,而成本只有之前Opus模型快速模式的三分之一。定价是每百万输入token 10美元、每百万输出token 25美元。

    新的”努力控制”(Effort Control)设置也值得提一下:用户可以调整Claude在任务上投入的计算量。Opus 4.8默认是”高努力”,Anthropic认为这对大多数工作负载来说是最佳平衡。如果你要处理的任务比较轻量,可以调低努力级别来省钱。

    已经在哪能用

    从昨天开始,Opus 4.8已经在以下平台可用:

    • Claude API——直接给开发者和平台构建者用
    • Amazon Bedrock——集成到AWS基础设施里
    • Google Cloud Vertex AI——GCP托管AI服务中可用
    • Microsoft Foundry——通过Microsoft的AI开发平台访问

    已经在生产环境跑Opus 4.7的团队,迁移基本无感——模型标识符更新一下就行,价格没变,这也是Anthropic故意做的”升级成本中性”设计。

    下一步:Mythos级模型已经在路上

    Anthropic已经确认正在开发新一代”Mythos级”模型,会在”未来几周内”发布。目前关于架构、能力基准或定价的细节都没披露,但Opus 4.8看起来更像一个短期过渡版本,而不是一个长周期旗舰。这也延续了Anthropic在2025年和2026年加速模型更新的节奏——不再憋大招,而是快速迭代、快速铺开。

    对于每天都在跟AI编码助手打交道的开发者来说,Opus 4.8最直观的感受可能就是:它犯傻的频率低了,能独立跑的时间长了,而你需要手动介入的次数——终于开始明显减少了。


  • Google I/O 2026:Gemini 3.5发布,AI智能体全面入侵谷歌全产品线

    北京时间5月20日凌晨,谷歌I/O 2026开发者大会开幕。今年发布会的重点不是某一个单一模型或功能,而是一次系统性转向——谷歌正在把AI智能体全面”塞进”所有核心入口。

    从搜索框到Chrome浏览器,从Android手机到智能眼镜,Gemini不再只是一个对话助手,而是一个可以持续运行、跨应用执行任务的AI代理:它能替用户追踪信息、生成内容、调用工具,甚至直接完成下单和操作流程。

    Google I/O 2026
    谷歌I/O 2026大会现场(图源:新浪科技)

    Gemini 3.5 Flash:价格砍半,速度4倍

    谷歌CEO桑达尔·皮查伊在主题演讲中发布了新一代大模型系列Gemini 3.5。首发推出的Gemini 3.5 Flash定位为”迄今最强大的智能体与编程模型”,输出Token速率达到其他前沿模型的4倍,而处理智能体任务的费用不到其他前沿模型的一半

    在GDPval-AA基准(衡量现实世界具有实际经济价值的编程任务)中,Gemini 3.5 Flash取得1656 Elo评分,超过了Gemini 3.1 Pro,也超过了目前公开可查的大部分前沿模型。在Terminal-Bench 2.1(衡量AI在真实终端环境中完成复杂任务的能力)中,得分76.2%——这意味着智能体在执行真实任务时的可靠性,正在从”勉强可用”向”可以依赖”跨越。

    皮查伊在演讲中直言:”Flash的惊人之处在于,它以不到同类前沿模型一半的价格,提供了前沿级别的能力。”当一家巨头愿意用”砍半定价”来推广自己的最前沿模型时,它传达的信号不是”我在让利”,而是”我要把竞争对手挤出市场”。

    视频模型Omni与智能体编程平台Antigravity 2.0

    DeepMind首席执行官德米斯·哈萨比斯登台发布了基于谷歌世界模型技术积累的新型视频生成模型Gemini Omni。该模型可以基于多种输入生成视频,并支持对话式编辑,用户可以通过自然语言修改角色、背景和场景。首款模型Gemini Omni Flash将于今年夏季推出。

    与此同时,谷歌发布了智能体编程平台Antigravity 2.0,直接对标Anthropic的Claude Code和OpenAI的Codex。该平台被谷歌定位为面向AI Agent时代的编程工具,官方称其”毫不掩饰地以智能体为先”。使用Antigravity 2.0及其代理系统从零开始构建一个操作系统,整个过程所消耗的Token成本不到1000美元。

    个人AI助手Gemini Spark与全线产品整合

    谷歌同时发布了全天候运行的个人AI助手Gemini Spark,基于Gemini 3.5,运行在Google Cloud虚拟机上。用户可以通过Gemini应用访问Spark,即便合上笔记本电脑,Spark也可以继续工作。本周将面向受信任测试人员推出,下周面向美国Google AI Ultra订阅用户开放。

    更重要的是,谷歌宣布了全线产品的AI智能体整合计划:

    • 搜索:将推出搜索信息智能体,后台24/7运行,主动发现信息并代为执行操作;Daily Brief Agent将整合用户的邮件、日历与任务,生成个性化晨间摘要。
    • Android:2026年晚些时候推出Android Halo,为用户提供实时智能体任务追踪界面。
    • 硬件:由Gentle Monster、Warby Parker与三星合作推出的Android XR智能眼镜将于2026年秋季上市,支持语音交互和信息投射。
    • 购物:发布由AI智能体驱动的通用购物车Universal Cart,可在Google服务中使用,追踪优惠、监控价格变动、识别兼容性问题。

    规模即壁垒:1800亿美元资本支出背后的逻辑

    皮查伊在演讲中披露了一组震撼数据:谷歌每月处理的Token数量已达到3.2千万亿,同比增长7倍;Gemini App月活跃用户从4亿增长至9亿;搜索AI模式月活跃用户突破10亿

    支撑这一切的,是谷歌2026年预计1800亿至1900亿美元的资本支出。这1800多亿美元的资本支出,本质上是在做一件事:用基础设施的规模化优势,把竞争对手挤出市场。当你的TPU集群规模、Token处理量和用户基数都达到竞争对手无法匹敌的量级时,”速度4倍、价格砍半”就不再是一个促销手段,而是一个结构性壁垒。

    回到根本问题:Gemini 3.5的发布,究竟是一次真正的技术飞跃,还是一次精心包装的战略营销?答案可能是:两者都是。从技术角度看,Gemini 3.5 Flash在基准测试中的表现、推理速度的提升、以及多智能体并行架构的落地,都是真实的进步。但与此同时,这次发布真正值得关注的,不是模型本身,而是谷歌围绕模型构建的全栈壁垒:TPU 8提供算力、Gemini 3.5提供智能、Antigravity 2.0提供平台、Spark和搜索提供触达——这条链条上的每一个环节,谷歌都握有主动权。

  • 谷歌DeepMind预言:2026年AI将实现永生

    谷歌DeepMind预言:2026年AI将实现”永生”

    2026年刚开始,谷歌DeepMind研究员就抛出一颗重磅炸弹:持续学习(Continuous Learning)将在2026年取得突破性进展,AI有望实现”自我进化”,不再需要人类反复训练。这个预言如果成真,AI的发展节奏会被彻底改写。

    Google DeepMind AI Continuous Learning
    谷歌DeepMind对持续学习的技术预言 | 来源:新智元

    这个预测不是空穴来风。Jeff Dean在NeurIPS 2025的炉边谈话中就指出,当前大语言模型的核心痛点就是”缺乏持续学习”能力。2025年底,谷歌团队提出的”嵌套化方法”已经增强了LLM的上下文处理能力,实现了持续学习的雏形。


    2026年:持续学习成为AI核心节点

    Anthropic CEO Dario Amodei最近公开表示,持续学习将在2026年落地且可实用化。这个说法不是营销话术——Anthropic的工程师自曝,过去一个月对Claude Code的贡献全部由AI 100%生成代码,非技术程序员Ben Tossell四个月用Claude Code造了50个项目,全程几乎0人工干预。

    持续学习是AI自我改进、能力涌现的核心要素。实现后,模型无需通过重新训练升级,可在自编码过程中不断进化。

    OpenAI研究员Hieu Pham甚至预测,2026年AI将破解一个千禧年难题。这个预测如果成真,意味着AI的推理能力将跨越式提升,不再只是”预测下一个token”,而是真正开始”思考”。

    2030年:全自动编程触发ASI加速

    前OpenAI研究员Daniel Kokotajlo团队用自主开发的AI Futures Model做了个推演:2030年有望实现完全自动化编程,甚至有25%的概率在1年内实现向超级人工智能(ASI)的飞跃。

    这个推演的核心逻辑是:全自动编程(AC)是AGI研发进入自动化加速阶段的”开关”。一旦落地,ASI极有可能快速起飞。这个预测听起来科幻,但推演方法是有依据的——以”能力基准趋势外推”为核心方法,采用ETR的编码时间跨度套件(ETR-HRS)作为基准,推演达到AGI所需的算力与发展路径。

    AI研发自动化分为三个阶段:

    • 阶段1:自动化编程——定义自动化编程器(AC)可完全替代AGI项目的整个程序员团队
    • 阶段2:自动化研究品味——研究品味指确定研究方向、挑选实验、解读结果、提取知识的能力;该阶段预测从AC进化到超人类AI研究员(SAR)的时间
    • 阶段3:智能爆炸——追踪三个里程碑:超智能AI研究员(SIAR)、顶尖专家级AI(TED-AI)、超级人工智能(ASI)

    2050年:诺奖级科研的主力军

    《自然》(Nature)杂志展望:到2050年,AI系统或将成为”诺奖级”科学研究的主力军。这个预测不是瞎猜——《超级智能:路径、危险与策略》作者Nick Bostrom预计AGI将在2050年前后出现,可回答当前大部分原则上可由科学解答的问题。

    伦敦研究与前瞻公司Outsmart Insight联创Alex Ayad提出了一个”黑灯实验室”场景:由AI算法驱动的自主系统结合机器人实验员,可24小时不间断攻克生物技术难题,全程无需人类在场。墨西哥国立自治大学物理学家Juan Carlos Hidalgo预测,在AI辅助下2050年核聚变能源成熟的前景”相当可期”。


    这件事为什么重要

    谷歌DeepMind这个预言的价值在于,它给出了一个明确的技术路线图:2026年持续学习落地 → 2030年全自动编程 → 2050年AI主导诺奖级科研。这个路线图如果成真,人类在科学研发中的角色会被根本性改变。

    现在下结论还太早。持续学习的技术路径还没收敛,全自动编程需要的不仅是代码生成能力,还有”研究品味”这种很难量化的能力。但方向已经清楚了:AI正在从”工具”变成”合作者”,再变成”主导者”。这个过程的节奏,可能比大部分人预期的快。

    对于开发者和企业来说,现在要问的问题不是”AI会不会替代我”,而是”我怎么在AI持续进化的环境里找到自己的位置”。这个答案,2026年可能会有第一部分线索。

  • AI智能体火了:从「聊两句」到「真的帮你干活」

    AI智能体火了:从「聊两句」到「真的帮你干活」

    如果你最近试过让AI帮你订外卖、整理文献、生成科研报告,你可能已经注意到一个变化:AI不再只是坐着和你聊天,它开始动手了。这个变化背后有一个关键词——智能体(Agent)。2026年,这个概念从实验室走到了普通用户的手机屏幕上。

    AI智能体应用场景
    AI智能体正在融入科研、电商、金融等真实工作场景(图源:新华网)

    智能体到底是什么?

    国家网信办等部门2026年5月印发的文件里给了个官方定义:智能体是具备自主感知、记忆、决策、交互与执行能力的智能系统。说人话就是——以前的AI是你问它答,现在的智能体是你告诉它一个目标,它会自己拆解任务、调用工具、执行步骤,最后把结果交给你。

    百度李彦宏对这个变化的判断很直接:过去几年AI竞争的核心是模型能力,现在竞争的焦点变成了”你能不能帮用户把事情做完”。这个判断背后有一个新的度量指标——日活智能体数(DAA),对应移动互联网时代的日活用户数(DAU)。

    衡量一个AI平台和生态是否繁荣,更应该看DAA——有多少智能体在给用户干活并交付结果。这才是AI从聊天工具向数字员工转变的真正标志。

    科研场景:从翻文献到一键出报告

    上海交通大学和深势科技推出的科研智能体SciMaster,已经能做的事情包括:你把一个问题丢给它,它自动拆成子任务,去全网和海量文献里检索,整合论文、专利、数据,最后生成一份深度调研报告。在药物研发和新材料设计领域,这类工具正在改变工作流。

    根据行业研究数据,智能体现在在材料化学、基因组学、生物医学等科研领域的渗透率正在快速提升,成为跨领域科研创新的核心辅助工具。

    电商场景:一句话下单,还会”劝退”你

    2026年5月,淘宝闪购和千问智能体完成深度打通,覆盖全国300多个城市和3000多个区县。你可以直接对智能体说”帮我点两杯奶茶,少糖,加珍珠”,它会自动识别意图、匹配商品、完成下单。

    有个有趣的细节:智能体在帮你选品时还会做出”劝退”动作。有记者测试时试图让智能体买”量子水杯”,结果被千问科普了一大通,直接劝退。这种机制其实是在用AI帮用户做理性决策,而不仅仅是被动执行指令。


    金融与教育:效率提升是实打实的

    券商研究员以前做行业研究,翻研报、读财报、搜新闻,2到3天才能出一份初稿。现在把研究主题交给智能体,它自动检索、精读财报、提炼观点,2到3小时就能输出结构化分析草稿。教育领域也是类似,文献综述这类耗时费力的活,现在智能体可以在一两天内完成过去需要几周的文献梳理工作。

    当然,智能体还不是完美的。幻觉问题、执行出错、决策跑偏,这些都是行业和用户正在共同面对的问题。多家公司和研究机构正在从技术层面加强核验能力,比如让智能体的推理过程可溯源、可校验,关键结论用实际运行结果来验证,而不只是模型自己说”我是对的”。

    政策层面也在跟上。2026年5月出台的《智能体规范应用与创新发展实施意见》,给这个正在快速爆发的行业划定了安全底线。智能体这个东西,本质上是AI从”会说话”到”能干活”的跨越,这个过程才刚刚开始。