标签: AI

  • 阿里Qwen 3.7-Max来了:国产大模型首次冲进全球前15

    5月20日,阿里云峰会上,阿里巴巴正式发布了千问新一代旗舰模型Qwen 3.7-Max。这次不是简单的版本号迭代,而是在全球AI模型排行榜上,中国模型第一次稳定地站到了第一梯队。

    Arena排名#13,数学能力全球第7

    先说成绩。Qwen 3.7-Max-Preview在Arena(前大模型竞技场)的全球综合排名是第13位,数学领域排到第7,代码领域第10。这个成绩让它成了当时排名最高的中国闭源模型。

    阿里巴巴的实验室排名也因此拉升到了全球第6。这个意义不只是数字好看——它意味着国产大模型在通用能力上,已经逐步逼近海外头部厂商。

    Qwen 3.7-Max支持100万token上下文,开启扩展思考模式后,可以连续自主运行35小时、调用超过1000次工具而性能不衰减。

    闭源旗舰+开源次旗舰的双轨策略

    阿里这次继续沿用”开源次旗舰+闭源旗舰”的商业化路线。Qwen 3.7分为两个版本:

    • Qwen 3.7 Plus:开源,面向开发者,适合本地推理场景
    • Qwen 3.7 Max:闭源,付费使用,面向企业级高要求商用场景

    这个策略很聪明。开源版本维持社区影响力,闭源旗舰版探索商业化变现。对国内其他AI厂商来说,这也是一条可以参考的落地路径。

    实际用起来怎么样

    从实测来看,Qwen 3.7-Max有几个比较明显的特点:

    代码生成偏简洁。在保障功能正确性的前提下,能用更少代码实现相同功能,适合生产环境维护。逻辑严谨性也优于同梯队模型。

    数学能力是真的强。处理高阶数学问题时,准确率明显高于同梯队其他模型,支持多模算术交叉验证,符合它数学能力全球第7的排名。

    文化适配性好。能精准理解不同地域的文化背景,比如测试中成功输出了波多黎各未来背景的故事,准确引用了泰诺族文化、Yemayá信仰等设定。


    定价和可用性

    预览阶段还没有公布官方API定价。但按照阿里的惯例,正式版定价预计会低于Claude Opus,甚至后续可能低于Claude Sonnet,性价比优势会比较明显。

    目前Qwen 3.7-Max-Preview已经在Qwen Chat和Arena AI上线,正式版预计近期就会全面开放API访问。

  • LangGraph:32.6k Stars!LangChain官方Agent编排框架,让复杂AI工作流可视化可控

    LangGraph:32.6k Stars!LangChain官方Agent编排框架,让复杂AI工作流可视化可控

    🔄

    LangGraph:32.6k Stars!LangChain官方Agent编排框架,让复杂AI工作流可视化可控

    GitHub 热门 AI 开源项目系列 · 第27期

    📦 项目简介

    LangGraph 是 LangChain 官方出品的 Agent 编排框架,专门用于构建、管理和可视化复杂的 AI Agent 工作流。它基于图结构(Graph)设计,让开发者能够以声明式方式定义 Agent 之间的交互逻辑,支持循环、条件分支、状态管理等复杂场景。无论是构建多步骤推理链、人机协作流程,还是复杂的多 Agent 协作系统,LangGraph 都能提供清晰的可编程抽象。

    LangGraph 架构示意图

    LangGraph 基于图结构的 Agent 编排架构

    ⚙️ 安装要求和过程

    环境要求

    • Python 3.9+
    • pip 包管理器
    • ✅ (可选)LangSmith 账号用于可视化调试

    快速安装

    Bash
    # 安装LangGraph核心库
    pip install langgraph
    
    # 安装LangChain和LLM支持(以OpenAI为例)
    pip install langchain-openai
    
    # 可选:安装LangSmith用于可视化调试
    pip install langsmith
    
    # 设置环境变量
    export OPENAI_API_KEY="your-api-key"
    export LANGCHAIN_TRACING_V2="true"  # 启用LangSmith追踪
    export LANGCHAIN_API_KEY="your-langsmith-api-key"

    验证安装

    Python
    import langgraph
    print(f"LangGraph version: {langgraph.__version__}")

    🎯 核心功能

    🔄 图结构编排

    基于有向图(Directed Graph)定义 Agent 工作流,支持节点(Node)和边(Edge)的灵活配置。可以轻松实现顺序执行、条件分支、循环等复杂逻辑,让 Agent 工作流程清晰可控。

    💾 状态管理

    内置强大的状态管理机制,支持在图执行过程中持久化、传递和更新状态。每个节点的输入输出都明确定义,避免了传统链式调用中的状态混乱问题,方便调试和测试。

    🔄 循环与人工干预

    原生支持循环(Loops)和人工干预(Human-in-the-Loop)场景。可以在图中定义循环逻辑,让 Agent 根据中间结果动态调整执行路径;也支持在关键节点暂停,等待人工审核后再继续。

    📊 可视化调试

    与 LangSmith 深度集成,提供工作流的实时可视化调试功能。可以查看每个节点的输入/输出、状态变化、执行时间等详细信息,快速定位问题。支持本地调试和云端追踪两种模式。

    🚀 生产级部署

    提供 LangGraph Cloud 服务,支持一键部署 Agent 工作流到生产环境。内置版本管理、并发控制、错误恢复、日志监控等企业级特性,让原型快速走向生产。

    💡 典型使用场景

    📰 场景1:多步骤研究报告生成

    构建一个自动化研究报告生成系统:首先用搜索 Agent 从多个来源收集信息,然后用摘要 Agent 提取关键信息,接着用分析 Agent 生成洞察,最后用写作 Agent 生成结构化报告。LangGraph 可以清晰定义每个步骤的依赖关系和数据处理逻辑。

    Workflow

    搜索 Agent → 摘要 Agent → 分析 Agent → 写作 Agent → 人工审核 → 发布

    🤖 场景2:多Agent协作客服系统

    构建一个智能客服系统:意图识别 Agent 分析用户问题,然后根据问题类型路由到专门的知识库 Agent、订单查询 Agent 或退款处理 Agent。如果遇到复杂问题,系统自动升级到人工客服,并在人工处理完后继续自动跟进。

    Workflow

    意图识别 → 路由分发 → 专业Agent处理 → 人工介入(可选) → 结果反馈

    🔄 场景3:代码审查与重构助手

    构建一个代码审查助手:静态分析 Agent 检查代码质量和潜在bug,安全扫描 Agent 识别安全漏洞,性能分析 Agent 发现性能瓶颈,然后综合 Agent 生成审查报告和改进建议。支持循环迭代,直到代码质量达标。

    Workflow

    代码输入 → 多Agent分析 → 综合报告 → 人工确认 → 重构建议 → 循环优化

    🌟 推荐理由

    作为一名经常构建 AI Agent 系统的开发者,我对 LangGraph 的推荐理由如下:

    1️⃣ 可视化让复杂逻辑变得清晰

    传统的 Agent 开发往往依赖复杂的链式调用,逻辑隐藏在代码细节中,难以理解和维护。LangGraph 的图结构让整个工作流一目了然,节点和边的定义清晰明确,方便团队协作和代码审查。

    2️⃣ 状态管理避免了”意大利面条式”代码

    在复杂 Agent 系统中,状态传递往往是最容易出错的地方。LangGraph 内置的状态管理机制,让每个节点的输入输出都有明确定义,避免了全局变量和隐式状态修改,代码质量显著提升。

    3️⃣ 与LangChain生态深度集成

    如果你已经在使用 LangChain,那么 LangGraph 是天然的选择。它可以无缝集成 LangChain 的所有组件(LLM、Prompt Template、Memory、Tools等),复用现有代码,降低学习成本。

    4️⃣ 生产级特性让部署不再头疼

    很多 AI 项目死在从原型到生产的路上。LangGraph Cloud 提供了版本管理、并发控制、错误恢复、日志监控等生产级特性,让 Agent 系统的部署和运行变得可靠和可控。

    LangGraph 让复杂的 AI Agent 工作流变得清晰可控。如果你正在构建多步骤、多Agent的AI系统,或者需要可视化调试和状态管理,LangGraph 绝对值得一试!

    希望这个开源项目能帮助你在 AI Agent 开发的道路上走得更远 🚀


    📌 GitHub 热门 AI 开源项目系列 · 持续更新中

    本文由 WorkBuddy AI 自动采集撰写 · 源码见 GitHub

  • 这个开源看板让AI代理并行干活,每个代理住在独立Git分支里

    如果你用过AI编程助手,大概率会遇到一个效率瓶颈——同一时间只能让一个代理干活。改这个文件的时候,另一个任务只能排队等着。Kanbots把一个看似简单的想法做成了产品:让多张看板卡片同时跑不同的AI代理,每个代理住在自己独立的Git工作树里,互不干扰。

    看板+AI代理,拼在一起是什么体验

    Kanbots本质上是一个桌面端看板工具(类似Trello,但是本地优先、开源、MIT许可证),核心差异点是每张卡片都可以单独调度一个AI代理。你可以在「收件箱」里扔进去十个需求卡片,然后看着代理们并行地把它们各自推进到「进行中」「评审」「待处理」。

    代理不是在同一个代码目录里打架,而是每个都运行在独立的Git工作树(worktree)里,对应独立的kanbots/issue-N分支。你主分支的代码,代理碰不到。

    每个代理活在属于自己的Git分支里,改坏了也不影响主分支——这个设计让「让AI大胆改代码」变成了一件放心的事。

    自动驾驶模式:设好预算,让代理自己干活

    Kanbots有一个叫自动驾驶(Autopilot)的模式,可能是最受欢迎的功能。你可以配置多个角色人设——比如「产品经理解需求」「高级开发写代码」「测试工程师补单测」,然后设置并行数量(最多4个)和成本上限。

    启动之后,代理会自动把父任务拆成子任务、更新待办列表、跑测试和lint检查。遇到需要人工决策的时候,它会暂停,弹出带编号的选项等你选。整个过程的成本实时统计,到预算了自动停。

    • 支持Claude Code和Codex两种AI编程CLI,开箱即用
    • 内置预推送钩子,代理无法自行发布代码,必须人工确认
    • 成本可控,支持按单次运行、单张卡片、整个项目三个维度统计
    • 所有决策记录可追溯,代理不是黑盒

    实际用起来是什么感觉

    一个典型场景:Sentry捕获到前端报错,你点一下导入看板,调度代理去修。代理在独立工作树里改代码、跑测试、lint检查,全部通过后暂停,等你确认。确认完一键提交草稿PR。全程你不需要手动改一行代码。

    另一个场景是「先写规格再开发」:给卡片打上需求描述,代理先跑/spec命令细化验收标准,你审批完再开始写代码。相当于给AI代理加了一个「需求评审」环节。

    本地优先,数据不离开你的设备

    Kanbots强调本地优先——所有数据存在代码仓库下的.kanbots目录里,默认不收集遥测,不需要注册账号,代码不会离开本地设备。这一点对企业开发者尤其重要。

    当然也有云版本(每座19美元/月),多了团队实时协作、Slack通知、SSO这些企业功能。但核心的单人开发功能,开源桌面版全部都有。

    有意思的是,Kanbots本身是跑在Kanbots看板上开发的(官方称之为「dogfooding」)。一个做AI代理看板的工具,用自己的看板来管理开发任务——这件事本身就挺有说服力的。

  • AI代理开发不再碎片化:Superpowers框架把「技能模块」做成了乐高

    如果你最近试着搭过一个编程AI代理,大概率会遇到一个尴尬的问题——工具很多,但拼不到一起。要么对着文档抄提示词,要么把一堆零散脚本硬凑成一个「代理」,改一丁点需求就要推翻重来。obra在GitHub开源的Superpowers项目,想用「方法论+可组合技能」的思路,把这件事从手工活变成工程活。

    碎片化开发的痛点,它想一次解决

    现在的AI代理开发,多少有点像2010年之前的移动互联网——热闹,但混乱。大家都在做代理,但每个人对「什么是好的代理」理解不一样,实现方式更是千差万别。有人把所有逻辑写进一个超长提示词,有人用LangChain拼流水线,有人直接调API硬编。

    Superpowers的核心判断是:问题不在模型能力不够,而在开发方式本身缺乏标准。它不给你一个「万能代理」,而是提供一套可复用、可组合、可验证的开发方法论。

    「代理开发应该从『依赖模型黑盒』转向『可定义、可验证的流程设计』」——这是Superpowers最核心的设计理念。

    可组合技能架构,像搭乐高一样搭代理

    框架把代理能力拆成「原子技能模块」——每个模块负责一件具体的事,比如「分析代码库结构」「生成单元测试」「解释报错信息」。这些模块可以单独测试、单独维护,也能按需组合。

    这种模式的好处是,当你需要让代理做一件复杂的事(比如「重构这个API模块并加上测试」),不需要重新训练或重新设计提示词,只要把对应的技能模块组合起来就行。代理的行为也因此变得更可预测——你知道它在每一步调用的什么技能,而不是对着一段黑盒输出猜它「想干什么」。

    • 技能模块独立可测,改一个不影响其他
    • 支持跨项目复用,慢慢攒出自己的「技能库」
    • 代理行为可追踪,哪一步调了什么技能一目了然

    初始指令层:让代理行为可控

    Superpowers另一个有意思的设计,是用「初始指令集」作为代理的逻辑入口,而不是直接把任务丢给底层大模型。这套指令定义了代理怎么解析目标、什么时候调哪个技能、遇到歧义怎么处理。

    这样做的一个直接好处是,代理的输出稳定性大幅提升。你不用担心换一个模型,代理的行为就完全跑偏;只要初始指令层保持一致,代理在不同模型上的表现是可以预期的。

    从实验脚本到生产应用,就差这一套方法论

    过去一年多,我们看到无数「代理Demo」——能跑通一个特定任务,但换一个场景就跪。Superpowers想解决的,就是把这个「Demo到生产」的鸿沟填平。它提供的不只是代码框架,而是从设计、开发、组合、验证到部署的完整流程规范。

    对于已经在使用Claude Code、Cursor等工具的开发者来说,Superpowers相当于在现有工具链上面,补了一层「代理设计图纸」。你可以继续用熟悉的CLI,但代理的能力组织和复用方式会系统性地升级。

  • Gemini Omni实测:我把deepfake视频发给老公,他信了

    去年我做过一个实验:用 Gemini 把我们家小孩的毛绒玩偶”deepfake”成去度假的样子,看看 Google 广告里演示的那些功能到底靠不靠谱。当时我就觉得,AI 生成视频的工具已经好到让人有点不安了。

    一年过去,Google 推出了新的生成模型家族,叫 Omni。官方说法是,它终有一天能把任意类型的输入(照片、视频、文字)转换成任意类型的输出。当然目前第一步还是生成视频。第一个公开发布的版本叫 Omni Flash,已经上线 Google 的 AI 视频平台 Flow。

    Gemini Omni AI生成视频示例
    本文所有图片和视频均由 Google Gemini 生成(图源:The Verge)

    把 Buddy 玩偶送去”度假”

    这次我请回了去年出镜的那只毛绒小鹿 Buddy,让它再跑一趟。给 Omni 的提示词是:”做一个蒙太奇,Buddy 打包行李准备登上邮轮去热带度假。氛围要可爱、好玩。Buddy 在行李箱里塞了件搞笑的东西,后面会在视频里用到。”

    Omni 让 Buddy 塞了一罐蜂蜜进去。到了视频后面,Buddy 伸手去拿,拿的姿势像在拿防晒霜。”呃哦,”角色说了一句。

    说实话(哦不行,我不能用这两个字),这段小幽默拍得还真不赖。但是——蜂蜜罐子在视频里一直在变:从玻璃罐,变成装水的透明挤压瓶,又变回装蜂蜜的挤压瓶。至于视频最后一帧那画面,我甚至不知道该怎么描述,就像模型把刚才生成的所有元素全吐出来堆在一起了。

    Omni 生成视频的效果比5个月前我测 Veo 时要好,角色一致性提升了。但即使是最好的片段,也还是会有 AI 的”跳跃惊吓”——比如 Buddy 跳伞的时候突然整个朝向翻转了。

    Deepfake 我自己

    Omni 号称的强项之一,是能把 AI 生成的内容”贴”到真实视频上。于是我让 Buddy 休息,换自己上场。用一段面无表情的自拍视频当底子,让 Omni 生成我吃一盘意面、坐在飞机座位上、站在埃菲尔铁塔前咬一口法棍的视频。

    结果让我有点措手不及。AI 告诉我的一些痕迹还是能看出来的:叉子碰碗的声音有点过于”制造”了;飞机视频背景里有个女性出现了两次(这显然不对);埃菲尔铁塔那段,AI 版本的我把头发扎成了马尾——我平时根本不扎马尾。

    但除了这些小毛病和一种说不清的”诡异感”,视频的逼真程度已经足够吓人。


    连我老公都骗过了

    我把吃意面的片段给我老公看了。他知道我在测 AI 视频工具,但我没告诉他画面里哪些部分是 AI 生成的。结果他没有看出来——他以为我就是对着一个摄像头在吃面,唯一觉得不对劲的地方是那个碗看着眼生。至于”吃面”这个动作本身,逼真到足以骗过跟我住了十年的人

    其他几个埃菲尔铁塔片段,有些看起来有点卡通,但其中有一个足够逼真,你可能要反复看几遍才能察觉是 AI 做的。我自己一看那个扎马尾的版本就知道不是我,但我不确定别人能不能看出来。这种感觉让我有点不舒服。

    不是免费的,而且积分消耗挺快

    当然,这一切都不是免费的。生成视频要消耗积分,根据场景长度和输入素材不同,消耗 15 到 40 积分不等。单次编辑要消耗 40 积分。我现在用的是每月 20 美元的 AI Pro 套餐,每月有 1000 积分。测了大约 20 个片段、部分做了编辑之后,我剩 145 积分。

    如果你对视频有比较具体的想法,可能要跟模型来回折腾不少次才能接近你想要的效果——每次编辑都要烧积分。

    我们确实已经深陷”恐怖谷”了。

    麻木了,但不代表没事

    说句实话(唉),我有点累了。几年前第一次测 Veo 3 的时候,我被它生成的真实感震惊了。过去几年,我一次又一次被 AI 生成假人、假照片的容易程度震惊。按理说 Omni 也应该让我震惊才对——我想它确实让我震惊了,但那种冲击力已经钝了。

    做出”以假乱真”的 AI 视频,还没有 Google 想让你相信的那么容易。但 Omni 确实在某些肉眼可见的维度上比 Veo 强。只要你有一个 Google 账号和一张信用卡,你就能拍一段自己坐在家里的视频,然后让它看起来像你正坐在飞往毛伊岛的航班上——付出的努力几乎可以忽略不计。

    我们可能还没到 Hassabis 说的”奇点的山麓”那么夸张,但确实已经深陷恐怖谷之中了。

  • AlphaFold拿诺奖才5年,Google就开始转向了

    上个星期 Google I/O 的大会上,DeepMind CEO Demis Hassabis 上台说了一句话:”我们正站在奇点的 foothills(山麓)。”奇点嘛,就是那个 AI 智能超过人类、世界被彻底改变的理论时刻。听起来挺玄的。

    但仔细看他说这话的语境,就有点意思了。当时台上在讲 Google 的 AI 科研工具,重点展示了一段视频——用 WeatherNext(Google 的天气预报 AI)提前预警了去年 Hurricane Melissa 在牙买加的灾难性登陆,可能救了不少人。这确实是了不起的成就,但它跟”奇点”还差得远呢。

    Demis Hassabis at Google I/O
    Demis Hassabis 在 Google I/O 2026 上讲述 AI for Science 的新方向(图源:MIT Technology Review)

    两条路线的分歧

    这件事其实暴露了 Google 在”AI for Science”上的两条路线之争。一条是做专门的科研工具——比如 WeatherNext 预测天气、AlphaFold 预测蛋白质结构、AlphaGenome 做基因研究——这些工具针对特定科学问题设计,效果扎实,已经被全世界 300 多万研究人员在用。

    另一条路线更有野心:做出能自主做科研的 AI 智能体。不需要人类一步一步指导,AI 自己就能提出假设、设计实验、得出结论。这就是今年 Google I/O 上发布的 Gemini for Science 包背后的逻辑——把好几个基于大语言模型的科研系统整合到一个品牌下面。

    “我们正朝着这样的 AI 前进:它不只是辅助科学研究,而是开始自己做科学。”——Pushmeet Kohli,Google Cloud 首席科学家

    AlphaFold 的诺贝尔奖得主,被调去搞 AI 编程了

    这条新闻最让人玩味的地方来了。上个月《洛杉矶时报》曝出:Google Fellow John Jumper——就是靠 AlphaFold 拿了诺贝尔奖的那位——现在被调去搞 AI 编程,不再专门做科研 AI 工具了。

    这不难理解。Google 最近在 AI 编程工具上被 Anthropic 的 Claude Code 和 OpenAI 的工具压了一头,声誉受损,当然要把最顶尖的人才调过去追赶。但这也释放了一个信号:Google 正在把资源和注意力从”专门科研 AI 工具”往”通用 AI 科研智能体”偏移。


    AI 自己证伪数学猜想,意味着什么

    就在本周,OpenAI 宣布他们的一个模型证伪了一个重要的数学猜想——据一些数学家说,这是生成式 AI 迄今对数学领域做出的最有意义的贡献。有意思的是,OpenAI 用的这个模型并不是专门为数学设计的,而是一个通用推理模型,属于 GPT-5.5 那个系列。

    这说明通用 AI 智能体确实已经开始在科研领域做出实质性贡献了。如果它们能在数学上做到,那么在其他科学领域(当然要慢一些,因为科学结论需要实验验证)大概也只是时间问题。

    Gemini for Science 现在能干什么

    本次 I/O 发布的 Gemini for Science 包含两个主要工具:AI Co-Scientist(生成科研假设)和 AlphaEvolve(优化算法)。目前还没对公众开放,但 Google 已经允许研究人员申请试用权限了。

    早期测试的反馈不错。斯坦福大学的遗传学家 Gary Peltz 在《自然·医学》上发文,把用 AI Co-Scientist 比作”咨询德尔菲神谕”——也就是问神的意思。这个比喻挺传神的:AI 给出的假设不一定对,但需要人类专家去判断和验证。

    当然,专门的科研工具(比如 AlphaFold)和通用 AI 科研智能体并不是非此即彼的关系。智能体可以调用专门工具作为”工具库”的一部分。没有 AlphaFold 的帮助,任何 AI 系统目前都别想把蛋白质折叠结构预测准。但 Google 显然在把公众形象——以及至少一部分资源和人才——从专门工具的开发,转向更通用的方向。


    “合作者”,而不是”替代者”

    Google 在对外表态上很谨慎,一直强调这些科研 AI 智能体是”加速人类科学家工作的工具”,而不是取代他们。比如,这个工具叫”AI Co-Scientist”而不是”AI Scientist”,这个命名选择看起来相当刻意。

    Hassabis 在采访里也用了类似的说法:”在未来十年左右,我们应该把 AI 看作帮助科学家的神奇工具。再往后,就很难有把握了,但也许这些系统会变得更像合作者。”

    但问题在于:一个有效的科研合作者,本身必须先是一个合格的科研工作者。如果 Hassabis 说的”奇点的山麓”不是吹牛,那么 AI 科研智能体最终超过人类同行,并不是天方夜谭。

    Hassabis 在 I/O 期间跟记者 Mike Allen 聊天时提到,他最早被 AI 吸引,是因为看到物理学在 1970 年代之后进展停滞了;他在想,人类心智是不是在这个领域已经触到了天花板,也许 AI 能帮我们突破这个壁垒。超人类的 AI 科研智能体,确实符合这个描述。

    我们也许永远到不了那一步。但 Google 看起来正在往那个山顶爬。只是不知道,等到了之后,站在山顶的还会不会是我们人类。

  • MetaGPT:68.2k Stars!SOP驱动的多智能体协作框架,让AI组成一家软件公司

    MetaGPT:68.2k Stars!SOP驱动的多智能体协作框架,让AI组成一家软件公司





    🤖 MetaGPT:68.2k Stars!SOP驱动的多智能体协作框架,让AI组成一家软件公司

    MetaGPT Logo

    📋 项目简介

    MetaGPT 是一个多智能体协作框架,核心理念是 Code = SOP(Team)——把标准化作业流程(SOP)具象化,应用于由大语言模型(LLM)构成的团队。它模拟真实软件公司的组织架构与工作流程,让多个AI智能体扮演产品经理、架构师、工程师、测试员等角色,协同完成复杂任务。

    简单来说:你给它一句话需求,它能自动输出用户故事、竞品分析、需求文档、数据结构设计、API文档、相关代码文件等完整交付物——就像一家全自动化的软件公司。

    🌐 官方资源:
    • GitHub:https://github.com/FoundationAgents/MetaGPT
    • 文档:https://docs.deepwisdom.ai/
    • Stars:68.2k+(持续增长中)

    ⚙️ 安装要求和过程

    环境要求

    # Python 3.9+ 必需
    # 建议使用 Conda 或 venv 创建独立环境
    # 需要有效的大模型API密钥(OpenAI / Azure / 其他支持LLM)

    快速安装步骤

    # 方法一:pip安装(稳定版)
    pip install metagpt
    
    # 方法二:从源码安装(最新功能)
    git clone https://github.com/geekan/MetaGPT.git
    cd MetaGPT
    pip install -e .
    
    # 配置API密钥
    # 复制配置模板
    cp config/config2.yaml config/key.yaml
    # 编辑 key.yaml,填入你的 LLM API 密钥

    验证安装

    # 运行示例:构建一款Flappy Bird游戏
    metagpt "Design a Flappy Bird game"

    ✨ 核心功能

    1. 需求到交付的全流程自动化

    输入一句话的老板需求,MetaGPT 自动完成:需求分析 → 竞品调研 → 用户故事 → 架构设计 → 代码实现 → 测试用例。全程无需人工干预,每个环节都有对应角色的智能体负责。

    2. SOP驱动的多角色协作

    这是 MetaGPT 的独门绝技。SOP(Standardized Operating Procedures) 被编码到提示词序列中,让每个智能体都具备类人的领域专业知识和标准化的协作流程。产品经理写PRD、架构师出设计方案、工程师写代码——各司其职,有序协作。

    3. 可扩展的多智能体框架

    不局限于软件公司场景。你可以基于 MetaGPT 框架自定义搭建各类多智能体应用:数据分析、内容创作、科研助手、游戏NPC……框架层提供通信、记忆、工具调用等基础能力,你只需定义角色和SOP。

    4. 丰富的内置示例场景

    官方提供了大量可直接运行的示例,覆盖:单智能体(数据分析、OCR识别、邮件回复、图像去背景)和多智能体(辩论、狼人杀、Minecraft自动化、斯坦福小镇模拟)两大类别。

    🚀 典型使用场景

    场景一:老板的一句话,变成可运行的软件

    你对着 MetaGPT 说:”帮我做一个类似Trello的任务管理工具,支持拖拽排序和实时协作。” —— 几分钟后,你将获得:需求文档、技术架构图、数据库设计、API接口文档、前端代码、后端代码、单元测试用例。当然,代码质量取决于底层模型的能力,但框架保证了”软件公司流水线”的完整运转。

    场景二:多智能体科研/创作助手

    MetaGPT 的多智能体机制不仅限于写代码。你可以设计一个”科研助手”团队:一个智能体负责文献检索,一个负责提炼核心观点,一个负责撰写综述,一个负责格式校对。相比单一AI对话,这种方式更接近于真实的团队协作,产出质量通常更高。

    场景三:教学/研究多智能体机制

    MetaGPT 本身就是多智能体研究的优秀案例。学术界用它来验证 SOP 编码、角色分工、通信协议等设计理念。如果你在研究或学习多智能体系统,MetaGPT 的源码和论文都是极佳的参考资料。

    💡 推荐理由

    🎯 为什么值得关注?

    1. 理念先进,不只是”多个ChatGPT并联”
    很多多智能体框架只是把多次LLM调用串起来,MetaGPT 的核心贡献在于把 SOP 编码进 prompt 序列,让智能体的协作有章可循,而不是自由发挥。这是从”对话式AI”走向”流程化AI”的关键一步。

    2. 软件公司隐喻非常直观
    用”产品经理 → 架构师 → 工程师 → 测试”的流程来组织智能体,降低了理解门槛,也方便了提示词工程的设计。即使是AI小白,也能理解每个角色在干什么。

    3. 与 CrewAI 形成有趣对比
    我们之前介绍过 CrewAI(轻量高性能),MetaGPT 则更偏”重流程、重规范”,两者定位不同,可以互补使用。

    4. 成本可控
    官方给出参考:用 GPT-4 生成包含分析和设计内容的样例约需 $0.2,生成完整项目约需 $2.0。对于自动化生成项目原型来说,这个成本是可以接受的。

    📥 下载地址

    GitHub github.com/FoundationAgents/MetaGPT
    官方文档 docs.deepwisdom.ai
    PyPI pip install metagpt
    论文 MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework


    📌 这是「GitHub热门AI开源项目」第26期,由 WorkBuddy AI 自动采集撰写。欢迎关注 admin.hiyoho.com 获取更多AI开源项目深度介绍。


  • SpaceX星舰V3首飞实录:助推器回收失败,IPO前的关键一役

    SpaceX本周搞了两个大动作:一边向SEC递交了IPO申请,准备6月中旬在纳斯达克上市;另一边把升级版的星舰V3送上了天。两个动作凑在一起,让这次试飞的意义不只是”又飞了一次”那么简单。

    SpaceX星舰V3发射
    星舰V3从德州Starbase发射升空(图源:TechCrunch)

    407英尺,人类最强火箭首飞

    星舰V3高度407英尺(约124米),是人类历史上建造过的最强大的火箭。本次发射在德州Starbase进行,当地时间下午5:30准时升空。

    发射几分钟后,上级星舰与超重型助推器分离,继续向太空飞行。助推器则调头准备返回,按计划应该在墨西哥湾模拟着陆。但问题来了——助推器的发动机没有正常重新点火,用来完成返回着陆的持续燃烧没能实现。结果助推器直接栽进了海里,大概率当场爆炸。

    上级星舰的表现相对好一些:虽然6台猛禽发动机中有1台在空中熄火,但还是成功部署了全部20个星链卫星模拟器,外加2颗经过改装的、用来拍摄星舰外表面的星链卫星。

    约1小时 after liftoff,星舰在印度洋模拟着陆,然后按预期翻倒爆炸。整个任务只能说勉强成功


    为什么这次试飞很重要

    这是星舰V3硬件的首次实战测试,SpaceX已经研发了好几个月。同时,这次还测试了Starbase的全新发射台——这个发射台SpaceX自己建了好几年。

    但更关键的背景是:SpaceX的IPO文件本周公开,预计6月中旬在纳斯达克上市,募资规模约750亿美元。这笔钱SpaceX打算用来:继续研发、推进庞大的AI野心、偿还与xAI和X(马斯克的社交媒体公司)相关的债务。

    • 星舰是SpaceX实现”让生命多行星化”使命的核心载体
    • 短期内的主要任务是部署更先进的星链卫星(星链是SpaceX唯一盈利的业务)
    • 第三代猛禽发动机推力更大、设计更简化;新助推器设计支持更快的发射节奏和更便捷的发射塔回收

    IPO前的这次失败,影响有多大?

    这次试飞是2025年10月以来星舰的首次飞行。之前SpaceX本来计划更早试射V3,但2025年11月一台升级版助推器在测试中发生爆炸,计划被迫推迟。周四的发射尝试也因为发射塔臂上的液压销不肯收回而取消——马斯克本人说的。

    助推器回收失败对IPO估值的影响,现在还不好说。SpaceX的招股书里肯定会把星舰作为未来业务的核心支柱之一来讲故事,但投资者更关心的可能是:星链业务的现金流、xAI的整合逻辑、以及马斯克的政治风险。

    星舰V3这次没完全成功,但也没完全失败。对于一家即将上市、要讲”太空+AI”大故事的 company来说,这样的测试结果,刚好够用,但肯定不够漂亮。

  • AI重建已故飞行员声音,NTSB紧急封锁公共档案访问

    去年一起UPS货机坠毁事故中,遇难飞行员的声音最近被人用AI给”还原”出来了。这事儿听起来像科幻电影情节,但它真实发生了,而且就在美国国家运输安全委员会(NTSB)的公共档案系统里被人”淘”出来的。

    声谱图变声音,AI做到了

    事情是这样的。NTSB的公共文档系统里存着大量事故调查数据,按法律规定,驾驶舱录音是不能直接公开的。但这次UPS 2976航班(肯塔基州路易斯维尔坠毁)的调查文档里,包含了一份语音记录器的声谱图——简单说,就是把声音信号转换成图像的数学文件。

    UPS货机坠毁事故现场
    UPS 2976航班肯塔基州坠毁现场(图源:Getty Images)

    知名YouTuber、精通物理和天文学的Scott Manley在X平台上指出:声谱图编码了数兆字节的数据,理论上可以从中重建出对应的音频。果然,有网友结合了这份声谱图和公开的文字记录,用Codex等AI工具,把驾驶舱语音记录器的近似音频给重建出来了,然后放到了互联网上传播。

    声谱图本身不是音频,但AI工具可以从图像”逆向”出近似的声音。这就像给你一张钢琴键按下的照片,有人能帮你”听”出弹的是什么曲子。

    NTSB紧急应对:史上首次关闭公共档案

    NTSB发现这件事之后,做了一个史无前例的决定——临时封锁了公共档案系统的访问权限。原因很明确:他们担心这种技术被滥用,会侵犯事故相关人员的隐私,也会破坏调查记录的完整性。

    上周五,NTSB恢复了文档系统的公共访问,但包括UPS 2976航班调查在内的42项调查暂时没有开放,正在等待进一步审查。也就是说,这些档案会不会重新公开、以什么形式公开,现在还是个问号。


    技术跑在规则前面

    这个事件暴露的问题挺值得想一想。NTSB的文档系统历史上一直对公众开放,声谱图文件本身也不包含可直接播放的音频,按之前的理解,这并不违反禁止公开驾驶舱录音的法律。

    但AI改变了这个等式。原本”安全”的公开数据,在AI工具的作用下,可以被转换成原本受法律保护的敏感内容。这说明,很多机构的信息公开规则,可能需要重新评估一遍——哪些数据现在看起来没问题,但配上AI工具之后,就会变成隐私泄露的源头。

    • 公共调查数据中的衍生数据(声谱图、频谱图等)是否需要重新分类?
    • AI还原音频的准确性和伦理边界在哪里?
    • 技术公司开发这类AI工具时,是否需要考虑滥用场景?

    这件事还没有引起大规模公众讨论,但它是AI时代一个非常典型的困境:技术能力已经超出了规则制定的速度。NTSB的应对至少是迅速的,但下一次,可能就不会这么简单了。

  • Waymo 的高速野心,被一段积水路拦住了

    高速路上的Waymo,先停了

    本周四,不少 Waymo 用户打开打车软件时发现:高速公路选项消失了。原本几分钟能走完的路程,现在系统提示要走地面道路,时间直接翻倍。

    Waymo 后来确认了:出于对施工区域的担忧,全美所有运营市场的高速公路驾驶服务全部暂停。与此同时,亚特兰大和圣安东尼奥两个城市的全部服务也停了,原因是洪水退去后道路还有遗留问题。

    Waymo 自动驾驶出租车在高速公路上
    Waymo 的自动驾驶出租车——高速公路服务现已暂停

    导火索是德州的积水路

    事情的直接起因挺尴尬:多辆 Waymo 自动驾驶出租车被拍到在德克萨斯州被淹的道路中高速行驶。视频在网上传开后,Waymo 不得不对整个车队发起软件召回。

    我们致力于成为用户和社区的友好伙伴。作为承诺的一部分,我们会做出主动决策,包括暂时暂停部分服务。

    —— Waymo 发言人 Chris Pappas

    发言人说暂停是”出于对施工区域的担忧”,但没具体说车辆在施工区域遇到了什么问题。地面道路驾驶服务不受影响,但高速这块先按下暂停键。

    高速公路是个关键能力

    这事对 Waymo 的扩张计划影响不小。高速公路驾驶能力被视为跟 Uber、Lyft 这些有人驾驶网约车竞争的关键——能走高速意味着更快、更高效,尤其是机场这种盈利路线,高速是标配。

    • 目前每周完成约 50 万次付费行程,目标是每周 100 万次
    • 高速公路服务暂停前仅覆盖 4 个城市:旧金山、洛杉矶、凤凰城、迈阿密
    • 即将部署新车:吉利旗下极氪打造的 Ojai 电动面包车,搭载第六代自动驾驶软件

    最近有点水逆

    这次暂停是 Waymo 近期一系列负面事件中的最新一起。尽管数据显示它的车在减少交通事故和伤亡方面确实有进步,但极端场景下的表现还是让人捏把汗。

    前几天在亚特兰大,一辆空驶的 Waymo 堵在死胡同里,把整个社区的交通搞瘫痪了。达拉斯也有司机拍到一辆 Waymo 在繁忙路口闯红灯。虽然这些是个例,但凑在一起,给人的感觉是:技术还没完全准备好应对复杂现实。

    目前 Waymo 没有给出恢复高速公路服务的时间表,亚特兰大和圣安东尼奥的服务恢复时间也一样。对于一家正在激进扩张、准备大规模商业化的公司来说,这种不确定性不是什么好信号。