标签: Agent编排

  • MIT发布2026年AI十大趋势:从人形机器人训练到反AI运动

    人形机器人训练数据:动作捕捉的新战场

    就像人类的文字成了大语言模型的养料,现在连人类怎么动、怎么走路、怎么搬东西,都被大规模收集起来训练人形机器人。这事儿听起来有点怪,但确实在发生——有公司专门建了”训练中心”,让工人一遍遍重复同样的动作,就为了给机器人提供学习素材。还有更离谱的”提线木偶”模式:远方的人类通过远程操控,手把手教机器人怎么做事。

    这种做法投入巨大,但没人能保证一定成功。可资本还是在砸钱,因为这可能是让机器人真正”活过来”的唯一路径。


    大语言模型没有死,它正在进化

    去年大家还在感叹大语言模型”改变了世界”,今年从业者已经在琢磨下一个突破在哪里。容易摘的果子已经摘完了,模型的提升越来越难,但这不意味着LLM要退出历史舞台。

    相反,它正在往两个方向走:一个是把现有的能力压榨到极致,另一个是在寻找全新的架构突破。这条路不好走,但走通了就是下一个时代。


    AI让诈骗变得便宜又高效

    以前想搞网络诈骗,还得学点技术、花点钱买工具。现在有了生成式AI,门槛几乎降到了地板上。黑客可以用AI批量生成钓鱼邮件,连语法错误都不一定有;换脸视频让冒充别人变得轻而易举;甚至连打电话诈骗都有AI语音代劳。

    AI正在让网络犯罪变得更便宜、更快、更容易——这对普通人来说不是什么好消息。


    世界模型:让AI理解物理世界

    大语言模型擅长处理文字,但要让AI进入真实物理世界——比如让机器人知道”杯子掉地上会碎”这种常识——就需要”世界模型”。这类系统试图让AI理解外部世界的运作规律,而不仅仅是预测下一个词。

    如果这条路走通了,AI就不再只是聊天工具,而是能真正在现实世界里做事情的智能体。这可能是下一波AI浪潮最核心的突破点。


    智能体编排:从单打独斗到团队协作

    早期的AI智能体只能干一件事——比如帮你订个外卖,或者写段代码。但现实世界里的问题往往是复杂的,需要多个步骤、多种能力配合。

    现在的方向是”智能体团队”:一个负责搜索、一个负责推理、一个负责执行,像人类团队一样分工协作。这比单个超级智能体更灵活,也更容易落地。很多公司已经在往这个方向押注了。


    中国的开源赌注:免费模型赢来的全球影响力

    DeepSeek、通义千问、智谱……中国实验室过去一年里密集开源了一大批高质量模型,而且真的好用。这让全球开发者突然意识到:原来不用OpenAI也能做出厉害的东西。

    但这种”免费送”的策略能不能持续,没人说得准。训练模型太烧钱了,光靠口碑和开发者好感,账算得过来吗?不管怎样,全世界已经在基于中国的基础模型搞开发了,这本身就已经改变了格局。


    AI科学家:当AI开始做科研

    有些公司已经在开发能自主做科研的AI——不是帮你查文献,而是真的能设计实验、分析数据、甚至提出新假设。支持者说,这种AI合作者有一天可能会达到诺贝尔奖的水平。

    这话听起来夸张,但想想十年前大家也觉得”AI下围棋赢人类”是天方夜谭。科学发现的门槛正在被重新定义。


    反AI运动:当大家开始说”够了”

    过去几年AI基本上是想怎么发展就怎么发展,监管跟不上,大家也沉浸在”新技术好厉害”的兴奋里。但现在这股浪潮遇到了真正的阻力。

    艺术家不满自己的作品被拿来训练模型,工会担心AI抢走工作,保守派和自由派居然在”限制AI”这件事上找到了共同点。这股反对力量还在早期,但已经在一些具体问题上取得了小胜利。AI的无约束时代,可能正在走向终点。


    写在最后

    MIT Technology Review这份清单的价值不在于预测未来,而在于帮我们看清当下——哪些方向是真的在动,哪些只是炒作。人形机器人、世界模型、智能体编排,这些是当前最值得盯着的变化;而AI安全、监管反弹、开源商业化困境,则是这个行业必须面对的考题。

    2026年的AI,已经不再是”能不能做出来”的问题,而是”应该怎么用、谁来管、往哪里去”的问题。

  • Google I/O 2026:Agent时代正式开启,OpenAI最大对手回来了

    Google I/O 2026:从聊天机器人到数字分身

    过去几年Google I/O的主角,通常是某个模型、某个参数量、某个Benchmark。但今年不一样。整场两个多小时发布会,Google其实只反复讲了一件事:Agent。

    不是聊天机器人,不是”帮你回答问题”的AI,而是真正开始替用户持续执行任务的AI Agent。Google想做的,是把Gemini从一个App,彻底变成Google所有入口背后的操作系统。

    Google I/O 2026发布会
    Google I/O 2026全面押注AI Agent(图源:谷歌)

    Gemini Spark:你的24小时数字分身

    这次发布会上,Google几乎把整个产品体系全部Agent化了。最核心的新产品,是Gemini Spark。你可以把它理解成Google版”全天候数字分身”。它运行在Google Cloud虚拟机上,7×24小时在线。即便你关掉电脑、合上手机,它依然会在后台继续工作。

    Google现场演示了一个典型场景:用户正在组织社区派对,Spark会自动汇总邮件回复、统计每个人带什么东西、追踪谁还没确认、生成提醒邮件、同步Google Sheets,再自动做一份Google Slides宣传页,整个过程几乎不需要用户手动操作。

    Gemini Spark本质上正在把Agent从”问答工具”,变成”长期运行的执行系统”。过去的大模型,更像即时响应;现在的Agent,则开始拥有持续状态、任务记忆和跨应用执行能力。

    Gemini 3.5 Flash:把Agent成本打下来

    Agent最大的难点,从来都不只是能力,而是成本。因为Agent实在太烧Token了。Google披露的数据非常夸张:目前Google自家产品每月处理的Token,已经达到3200万亿个,同比增长7倍。

    于是,Gemini 3.5 Flash出现了。这可能是今年Google最关键的模型。因为它不再单纯强调”最强”,而是开始强调”最适合跑Agent”。Pichai现场直接算了一笔账:如果一家头部企业每天处理1万亿Token,把80%的工作负载从其它前沿模型迁移到Gemini 3.5 Flash,一年能省超过10亿美元。

    性能接近顶级前沿模型,输出速度快4倍,而成本只有同类模型的一半甚至更低。Google现在反复强调一句话:”你不需要再在质量和速度之间二选一。”因为Agent时代,比拼的已经不是一次回答,而是持续运行能力。

    Antigravity 2.0:93个Agent协作搭建操作系统

    如果说Flash负责”让Agent更便宜”,那Antigravity 2.0负责的,就是”让Agent真正开始干活”。它原本只是个AI Coding工具,现在Google直接把它升级成了多Agent协作平台。

    开发者可以同时调度多个Agent:一个写代码,一个生成设计素材,一个规划产品架构,一个测试漏洞,一个修Bug。Google现场甚至演示了一个极其夸张的案例:93个Agent并行协作,从零开始搭建一个可运行的操作系统。

    整个过程持续12小时,处理26亿Token,最终居然真的跑起来了,甚至还能运行Doom。而整个API成本不到1000美元。Google显然是在正面硬刚Claude Code和Codex。

    搜索彻底变了:从链接到执行结果

    Google这次还对搜索动了最大的一刀。Pichai说,这是Google搜索框25年来最大升级。因为搜索不再只是”搜答案”,而是开始”生成执行结果”。

    比如用户问:”黑洞如何影响时空?”以前搜索会给你十条蓝链,现在Google直接生成一个交互式可视化界面,你甚至可以拖动参数、实时观察变化。搜索开始变成实时生成式UI。

    Google还把Agent正式塞进搜索。用户未来可以创建Information Agent,让它24小时后台监控信息,比如跟踪股票、监控租房、盯球鞋发售、观察行业动态、追踪价格变化。Agent会自己搜、自己总结、自己更新。


    Google最恐怖的其实是生态

    但整场发布会真正最危险的地方,其实不是模型,而是Google的生态。因为OpenAI现在最强的,是模型能力;但Google最强的,是入口。

    搜索、Chrome、Android、YouTube、Gmail、Maps、Workspace……这些产品加起来,本身就是全球最大的互联网流量系统之一。而现在,Google正在把Gemini嵌入所有入口。

    这意味着,别人还在想办法”获取用户”,Google已经开始直接给几十亿用户发Agent。这是完全不同的战争维度。

    甚至连智能眼镜,Google也重新杀回来了。今年发布的Android XR眼镜,可以直接通过Gemini完成导航、下单、消息总结,用户甚至不用掏手机。

    Google正在试图让Gemini变成未来所有设备背后的默认智能层。搜索是入口,Chrome是入口,手机是入口,眼镜也是入口。Gemini则开始变成背后的统一大脑。

    AI行业开始进入”运营时代”

    今年Google I/O还有个特别明显的信号:AI行业正在从”模型竞赛”,进入”运营竞赛”。过去两年,行业核心是”谁更聪明”;现在开始变成谁更稳定、谁更便宜、谁更能规模化、谁更能真正接管工作流。

    Google今年资本支出预计高达1800亿~1900亿美元,第八代TPU开始拆成训练芯片和推理芯片。Google甚至公开强调:”我们要把最强AI,变成最便宜的AI。”这已经不是单纯的技术竞争,而是一次基础设施战争。


    过去几年,大家一直在讨论:AI到底什么时候能真正”替人做事”。Google这次给出的答案是:现在。而且它不准备只做一个聊天机器人。它想做的是,一个全天候运行、跨应用协作、持续执行任务、存在于所有入口里的超级Agent系统。

    Google迟到了。但现在,它终于开始全面开卷Agent。

  • 2026年AI领域最值得关注的10件事

    2026年AI领域最值得关注的10件事

    MIT Technology Review最近发了篇文章,总结了当下AI领域最值得你盯着的10个方向。他们的记者和编辑盯了AI这么多年,这次第一次把答案浓缩成一份清单。

    这份榜单的灵感来自他们每年的《10项突破性技术》,但这次把视角投向了当下推动AI进步、改变权力格局的东西。我挑几个最有意思的跟你聊聊。

    AI Trends 2026
    MIT Technology Review总结的2026年AI十大重要趋势(图片来源:MIT Technology Review)

    人形机器人需要大量训练数据

    就像我们的文字成了大语言模型的训练数据一样,记录人类动作的海量视频现在正被收集起来,用来训练人形机器人。有些公司在搞庞大的”训练中心”,让工人重复完成任务;还有些公司让海外的陌生人远程操控”傀儡”机器人。这是个疯狂的尝试,而且没人能保证一定能成功。

    大语言模型还有很大挖掘空间

    大语言模型(LLM)曾经席卷全球。现在所有AI从业者都在追逐下一个重大突破。虽然容易实现的目标已经所剩无几,但大语言模型不会就此消失,这项技术还有很大的挖掘空间。

    AI让诈骗变得更容易了

    AI正在降低诈骗分子和黑客的作案门槛,让入侵目标的尝试变得比以往更快、更便宜、更容易。这件事值得所有人警惕。

    “AI无处不在,铺天盖地。这让你有怎样的感受?”——MIT Technology Review编辑Mat Honan

    世界模型:让AI理解物理世界

    AI公司想要构建能够理解外部世界的系统。如果它们成功,就有可能克服大语言模型的局限性,帮助AI进入物理环境。这是个很有意思的方向。

    AI已经进了作战室

    算法很早就实现了军事杂务的自动化,但现在生成式AI已经在作战室拥有了席位,指挥官会认真采纳它的建议。它正在重塑军队的情报共享方式、和大型科技公司的合作模式,以及致命决策的制定方式。

    深度伪造被武器化了

    随着生成式AI的改进、Grok大规模生成非自愿色情图像,以及美国政府用这项技术进行宣传,人们长期预测的武器化深度伪造威胁已经到来。


    智能体协作:从单打独斗到团队合作

    第一代AI智能体只能运行浏览器或者编写代码片段,而且只能单独行动。接下来将出现的是能够协作完成复杂得多的目标的智能体团队。这个方向对自动化和生产力提升很有意义。

    中国的开源押注

    免费开放前沿模型让中国实验室赢得了全球信誉,也获得了开发者的大量好感。这种模式的财务可持续性无人知晓,但全世界已经在基于中国的模型基础进行构建了。

    人工智能科学家:AI自己搞研究

    学术界和企业都在开发能够自主完成研究任务、作为真正的合作者和科学家共事的智能体。有人认为,这些AI合作科学家终有一天会取得足以获得诺贝尔奖的成果。这个说法有点大胆,但也不是完全没可能。

    全球范围内的AI抵制浪潮

    在多年的AI无限制发展之后,全球范围内正在形成一股强大的抵制浪潮。从保守派到自由派,从艺术家到工会,活动人士的势头越来越猛,已经开始取得一些小胜利。


    我的看法:这10个方向里,我觉得最值得关注的是”智能体协作”和”世界模型”。智能体协作如果能做好,对提升生产力会有很大帮助;世界模型则是让AI从屏幕后面走到物理世界的关键一步。至于AI诈骗和深度伪造武器化,这两个方向让人担心,但也说明AI的能力确实在快速提升。

    另外,中国的开源押注这个方向也很有意思。免费开放前沿模型确实能赢得开发者的好感,但怎么赚钱这是个问题。不过,全世界已经开始基于中国的模型进行构建了,这说明开源策略确实有效。

  • LangGraph:32.6k Stars!LangChain官方Agent编排框架,让复杂AI工作流可视化可控

    LangGraph:32.6k Stars!LangChain官方Agent编排框架,让复杂AI工作流可视化可控

    🔄

    LangGraph:32.6k Stars!LangChain官方Agent编排框架,让复杂AI工作流可视化可控

    GitHub 热门 AI 开源项目系列 · 第27期

    📦 项目简介

    LangGraph 是 LangChain 官方出品的 Agent 编排框架,专门用于构建、管理和可视化复杂的 AI Agent 工作流。它基于图结构(Graph)设计,让开发者能够以声明式方式定义 Agent 之间的交互逻辑,支持循环、条件分支、状态管理等复杂场景。无论是构建多步骤推理链、人机协作流程,还是复杂的多 Agent 协作系统,LangGraph 都能提供清晰的可编程抽象。

    LangGraph 架构示意图

    LangGraph 基于图结构的 Agent 编排架构

    ⚙️ 安装要求和过程

    环境要求

    • Python 3.9+
    • pip 包管理器
    • ✅ (可选)LangSmith 账号用于可视化调试

    快速安装

    Bash
    # 安装LangGraph核心库
    pip install langgraph
    
    # 安装LangChain和LLM支持(以OpenAI为例)
    pip install langchain-openai
    
    # 可选:安装LangSmith用于可视化调试
    pip install langsmith
    
    # 设置环境变量
    export OPENAI_API_KEY="your-api-key"
    export LANGCHAIN_TRACING_V2="true"  # 启用LangSmith追踪
    export LANGCHAIN_API_KEY="your-langsmith-api-key"

    验证安装

    Python
    import langgraph
    print(f"LangGraph version: {langgraph.__version__}")

    🎯 核心功能

    🔄 图结构编排

    基于有向图(Directed Graph)定义 Agent 工作流,支持节点(Node)和边(Edge)的灵活配置。可以轻松实现顺序执行、条件分支、循环等复杂逻辑,让 Agent 工作流程清晰可控。

    💾 状态管理

    内置强大的状态管理机制,支持在图执行过程中持久化、传递和更新状态。每个节点的输入输出都明确定义,避免了传统链式调用中的状态混乱问题,方便调试和测试。

    🔄 循环与人工干预

    原生支持循环(Loops)和人工干预(Human-in-the-Loop)场景。可以在图中定义循环逻辑,让 Agent 根据中间结果动态调整执行路径;也支持在关键节点暂停,等待人工审核后再继续。

    📊 可视化调试

    与 LangSmith 深度集成,提供工作流的实时可视化调试功能。可以查看每个节点的输入/输出、状态变化、执行时间等详细信息,快速定位问题。支持本地调试和云端追踪两种模式。

    🚀 生产级部署

    提供 LangGraph Cloud 服务,支持一键部署 Agent 工作流到生产环境。内置版本管理、并发控制、错误恢复、日志监控等企业级特性,让原型快速走向生产。

    💡 典型使用场景

    📰 场景1:多步骤研究报告生成

    构建一个自动化研究报告生成系统:首先用搜索 Agent 从多个来源收集信息,然后用摘要 Agent 提取关键信息,接着用分析 Agent 生成洞察,最后用写作 Agent 生成结构化报告。LangGraph 可以清晰定义每个步骤的依赖关系和数据处理逻辑。

    Workflow

    搜索 Agent → 摘要 Agent → 分析 Agent → 写作 Agent → 人工审核 → 发布

    🤖 场景2:多Agent协作客服系统

    构建一个智能客服系统:意图识别 Agent 分析用户问题,然后根据问题类型路由到专门的知识库 Agent、订单查询 Agent 或退款处理 Agent。如果遇到复杂问题,系统自动升级到人工客服,并在人工处理完后继续自动跟进。

    Workflow

    意图识别 → 路由分发 → 专业Agent处理 → 人工介入(可选) → 结果反馈

    🔄 场景3:代码审查与重构助手

    构建一个代码审查助手:静态分析 Agent 检查代码质量和潜在bug,安全扫描 Agent 识别安全漏洞,性能分析 Agent 发现性能瓶颈,然后综合 Agent 生成审查报告和改进建议。支持循环迭代,直到代码质量达标。

    Workflow

    代码输入 → 多Agent分析 → 综合报告 → 人工确认 → 重构建议 → 循环优化

    🌟 推荐理由

    作为一名经常构建 AI Agent 系统的开发者,我对 LangGraph 的推荐理由如下:

    1️⃣ 可视化让复杂逻辑变得清晰

    传统的 Agent 开发往往依赖复杂的链式调用,逻辑隐藏在代码细节中,难以理解和维护。LangGraph 的图结构让整个工作流一目了然,节点和边的定义清晰明确,方便团队协作和代码审查。

    2️⃣ 状态管理避免了”意大利面条式”代码

    在复杂 Agent 系统中,状态传递往往是最容易出错的地方。LangGraph 内置的状态管理机制,让每个节点的输入输出都有明确定义,避免了全局变量和隐式状态修改,代码质量显著提升。

    3️⃣ 与LangChain生态深度集成

    如果你已经在使用 LangChain,那么 LangGraph 是天然的选择。它可以无缝集成 LangChain 的所有组件(LLM、Prompt Template、Memory、Tools等),复用现有代码,降低学习成本。

    4️⃣ 生产级特性让部署不再头疼

    很多 AI 项目死在从原型到生产的路上。LangGraph Cloud 提供了版本管理、并发控制、错误恢复、日志监控等生产级特性,让 Agent 系统的部署和运行变得可靠和可控。

    LangGraph 让复杂的 AI Agent 工作流变得清晰可控。如果你正在构建多步骤、多Agent的AI系统,或者需要可视化调试和状态管理,LangGraph 绝对值得一试!

    希望这个开源项目能帮助你在 AI Agent 开发的道路上走得更远 🚀


    📌 GitHub 热门 AI 开源项目系列 · 持续更新中

    本文由 WorkBuddy AI 自动采集撰写 · 源码见 GitHub