标签： AI

阿里Qwen 3.7-Max来了：国产大模型首次冲进全球前15
5月20日，阿里云峰会上，阿里巴巴正式发布了千问新一代旗舰模型Qwen 3.7-Max。这次不是简单的版本号迭代，而是在全球AI模型排行榜上，中国模型第一次稳定地站到了第一梯队。

Arena排名#13，数学能力全球第7

先说成绩。Qwen 3.7-Max-Preview在Arena（前大模型竞技场）的全球综合排名是第13位，数学领域排到第7，代码领域第10。这个成绩让它成了当时排名最高的中国闭源模型。

阿里巴巴的实验室排名也因此拉升到了全球第6。这个意义不只是数字好看——它意味着国产大模型在通用能力上，已经逐步逼近海外头部厂商。

Qwen 3.7-Max支持100万token上下文，开启扩展思考模式后，可以连续自主运行35小时、调用超过1000次工具而性能不衰减。

闭源旗舰+开源次旗舰的双轨策略

阿里这次继续沿用”开源次旗舰+闭源旗舰”的商业化路线。Qwen 3.7分为两个版本：
- Qwen 3.7 Plus：开源，面向开发者，适合本地推理场景
- Qwen 3.7 Max：闭源，付费使用，面向企业级高要求商用场景
这个策略很聪明。开源版本维持社区影响力，闭源旗舰版探索商业化变现。对国内其他AI厂商来说，这也是一条可以参考的落地路径。

实际用起来怎么样

从实测来看，Qwen 3.7-Max有几个比较明显的特点：

代码生成偏简洁。在保障功能正确性的前提下，能用更少代码实现相同功能，适合生产环境维护。逻辑严谨性也优于同梯队模型。

数学能力是真的强。处理高阶数学问题时，准确率明显高于同梯队其他模型，支持多模算术交叉验证，符合它数学能力全球第7的排名。

文化适配性好。能精准理解不同地域的文化背景，比如测试中成功输出了波多黎各未来背景的故事，准确引用了泰诺族文化、Yemayá信仰等设定。

定价和可用性

预览阶段还没有公布官方API定价。但按照阿里的惯例，正式版定价预计会低于Claude Opus，甚至后续可能低于Claude Sonnet，性价比优势会比较明显。

目前Qwen 3.7-Max-Preview已经在Qwen Chat和Arena AI上线，正式版预计近期就会全面开放API访问。

📎 原文来源：Decrypt – Alibaba Qwen 3.7 Max Preview Review
2026年5月24日
LangGraph：32.6k Stars！LangChain官方Agent编排框架，让复杂AI工作流可视化可控
🔄

LangGraph：32.6k Stars！LangChain官方Agent编排框架，让复杂AI工作流可视化可控

GitHub 热门 AI 开源项目系列 · 第27期

📦 项目简介

LangGraph 是 LangChain 官方出品的 Agent 编排框架，专门用于构建、管理和可视化复杂的 AI Agent 工作流。它基于图结构（Graph）设计，让开发者能够以声明式方式定义 Agent 之间的交互逻辑，支持循环、条件分支、状态管理等复杂场景。无论是构建多步骤推理链、人机协作流程，还是复杂的多 Agent 协作系统，LangGraph 都能提供清晰的可编程抽象。

LangGraph 基于图结构的 Agent 编排架构
⚙️ 安装要求和过程

环境要求

✅ Python 3.9+

✅ pip 包管理器

✅ （可选）LangSmith 账号用于可视化调试

快速安装

Bash

# 安装LangGraph核心库 pip install langgraph # 安装LangChain和LLM支持（以OpenAI为例） pip install langchain-openai # 可选：安装LangSmith用于可视化调试 pip install langsmith # 设置环境变量 export OPENAI_API_KEY="your-api-key" export LANGCHAIN_TRACING_V2="true" # 启用LangSmith追踪 export LANGCHAIN_API_KEY="your-langsmith-api-key"

验证安装

Python

import langgraph print(f"LangGraph version: {langgraph.__version__}")
🎯 核心功能

🔄 图结构编排

基于有向图（Directed Graph）定义 Agent 工作流，支持节点（Node）和边（Edge）的灵活配置。可以轻松实现顺序执行、条件分支、循环等复杂逻辑，让 Agent 工作流程清晰可控。

💾 状态管理

内置强大的状态管理机制，支持在图执行过程中持久化、传递和更新状态。每个节点的输入输出都明确定义，避免了传统链式调用中的状态混乱问题，方便调试和测试。

🔄 循环与人工干预

原生支持循环（Loops）和人工干预（Human-in-the-Loop）场景。可以在图中定义循环逻辑，让 Agent 根据中间结果动态调整执行路径；也支持在关键节点暂停，等待人工审核后再继续。

📊 可视化调试

与 LangSmith 深度集成，提供工作流的实时可视化调试功能。可以查看每个节点的输入/输出、状态变化、执行时间等详细信息，快速定位问题。支持本地调试和云端追踪两种模式。

🚀 生产级部署

提供 LangGraph Cloud 服务，支持一键部署 Agent 工作流到生产环境。内置版本管理、并发控制、错误恢复、日志监控等企业级特性，让原型快速走向生产。

💡 典型使用场景

📰 场景1：多步骤研究报告生成

构建一个自动化研究报告生成系统：首先用搜索 Agent 从多个来源收集信息，然后用摘要 Agent 提取关键信息，接着用分析 Agent 生成洞察，最后用写作 Agent 生成结构化报告。LangGraph 可以清晰定义每个步骤的依赖关系和数据处理逻辑。

Workflow

搜索 Agent → 摘要 Agent → 分析 Agent → 写作 Agent → 人工审核 → 发布

🤖 场景2：多Agent协作客服系统

构建一个智能客服系统：意图识别 Agent 分析用户问题，然后根据问题类型路由到专门的知识库 Agent、订单查询 Agent 或退款处理 Agent。如果遇到复杂问题，系统自动升级到人工客服，并在人工处理完后继续自动跟进。

Workflow

意图识别 → 路由分发 → 专业Agent处理 → 人工介入（可选） → 结果反馈

🔄 场景3：代码审查与重构助手

构建一个代码审查助手：静态分析 Agent 检查代码质量和潜在bug，安全扫描 Agent 识别安全漏洞，性能分析 Agent 发现性能瓶颈，然后综合 Agent 生成审查报告和改进建议。支持循环迭代，直到代码质量达标。

Workflow

代码输入 → 多Agent分析 → 综合报告 → 人工确认 → 重构建议 → 循环优化

🌟 推荐理由

作为一名经常构建 AI Agent 系统的开发者，我对 LangGraph 的推荐理由如下：

1️⃣ 可视化让复杂逻辑变得清晰

传统的 Agent 开发往往依赖复杂的链式调用，逻辑隐藏在代码细节中，难以理解和维护。LangGraph 的图结构让整个工作流一目了然，节点和边的定义清晰明确，方便团队协作和代码审查。

2️⃣ 状态管理避免了”意大利面条式”代码

在复杂 Agent 系统中，状态传递往往是最容易出错的地方。LangGraph 内置的状态管理机制，让每个节点的输入输出都有明确定义，避免了全局变量和隐式状态修改，代码质量显著提升。

3️⃣ 与LangChain生态深度集成

如果你已经在使用 LangChain，那么 LangGraph 是天然的选择。它可以无缝集成 LangChain 的所有组件（LLM、Prompt Template、Memory、Tools等），复用现有代码，降低学习成本。

4️⃣ 生产级特性让部署不再头疼

很多 AI 项目死在从原型到生产的路上。LangGraph Cloud 提供了版本管理、并发控制、错误恢复、日志监控等生产级特性，让 Agent 系统的部署和运行变得可靠和可控。

📥 下载地址

📦

GitHub 仓库

langchain-ai/langgraph

⭐ 32.6k+ Stars

📚

官方文档

完整教程和API参考

📖 详细文档

🐍

PyPI 安装

pip install langgraph

📦 最新版本

🔍

LangSmith 平台

可视化调试和追踪

🚀 生产级监控

LangGraph 让复杂的 AI Agent 工作流变得清晰可控。如果你正在构建多步骤、多Agent的AI系统，或者需要可视化调试和状态管理，LangGraph 绝对值得一试！

希望这个开源项目能帮助你在 AI Agent 开发的道路上走得更远 🚀

📌 GitHub 热门 AI 开源项目系列 · 持续更新中

本文由 WorkBuddy AI 自动采集撰写 · 源码见 GitHub
2026年5月23日
这个开源看板让AI代理并行干活，每个代理住在独立Git分支里
如果你用过AI编程助手，大概率会遇到一个效率瓶颈——同一时间只能让一个代理干活。改这个文件的时候，另一个任务只能排队等着。Kanbots把一个看似简单的想法做成了产品：让多张看板卡片同时跑不同的AI代理，每个代理住在自己独立的Git工作树里，互不干扰。

看板+AI代理，拼在一起是什么体验

Kanbots本质上是一个桌面端看板工具（类似Trello，但是本地优先、开源、MIT许可证），核心差异点是每张卡片都可以单独调度一个AI代理。你可以在「收件箱」里扔进去十个需求卡片，然后看着代理们并行地把它们各自推进到「进行中」「评审」「待处理」。

代理不是在同一个代码目录里打架，而是每个都运行在独立的Git工作树（worktree）里，对应独立的kanbots/issue-N分支。你主分支的代码，代理碰不到。

每个代理活在属于自己的Git分支里，改坏了也不影响主分支——这个设计让「让AI大胆改代码」变成了一件放心的事。

自动驾驶模式：设好预算，让代理自己干活

Kanbots有一个叫自动驾驶（Autopilot）的模式，可能是最受欢迎的功能。你可以配置多个角色人设——比如「产品经理解需求」「高级开发写代码」「测试工程师补单测」，然后设置并行数量（最多4个）和成本上限。

启动之后，代理会自动把父任务拆成子任务、更新待办列表、跑测试和lint检查。遇到需要人工决策的时候，它会暂停，弹出带编号的选项等你选。整个过程的成本实时统计，到预算了自动停。
- 支持Claude Code和Codex两种AI编程CLI，开箱即用
- 内置预推送钩子，代理无法自行发布代码，必须人工确认
- 成本可控，支持按单次运行、单张卡片、整个项目三个维度统计
- 所有决策记录可追溯，代理不是黑盒
实际用起来是什么感觉

一个典型场景：Sentry捕获到前端报错，你点一下导入看板，调度代理去修。代理在独立工作树里改代码、跑测试、lint检查，全部通过后暂停，等你确认。确认完一键提交草稿PR。全程你不需要手动改一行代码。

另一个场景是「先写规格再开发」：给卡片打上需求描述，代理先跑/spec命令细化验收标准，你审批完再开始写代码。相当于给AI代理加了一个「需求评审」环节。

本地优先，数据不离开你的设备

Kanbots强调本地优先——所有数据存在代码仓库下的.kanbots目录里，默认不收集遥测，不需要注册账号，代码不会离开本地设备。这一点对企业开发者尤其重要。

当然也有云版本（每座19美元/月），多了团队实时协作、Slack通知、SSO这些企业功能。但核心的单人开发功能，开源桌面版全部都有。

有意思的是，Kanbots本身是跑在Kanbots看板上开发的（官方称之为「dogfooding」）。一个做AI代理看板的工具，用自己的看板来管理开发任务——这件事本身就挺有说服力的。

📎 原文来源：Kanbots – Parallel AI agents on a kanban board
2026年5月23日
AI代理开发不再碎片化：Superpowers框架把「技能模块」做成了乐高
如果你最近试着搭过一个编程AI代理，大概率会遇到一个尴尬的问题——工具很多，但拼不到一起。要么对着文档抄提示词，要么把一堆零散脚本硬凑成一个「代理」，改一丁点需求就要推翻重来。obra在GitHub开源的Superpowers项目，想用「方法论+可组合技能」的思路，把这件事从手工活变成工程活。

碎片化开发的痛点，它想一次解决

现在的AI代理开发，多少有点像2010年之前的移动互联网——热闹，但混乱。大家都在做代理，但每个人对「什么是好的代理」理解不一样，实现方式更是千差万别。有人把所有逻辑写进一个超长提示词，有人用LangChain拼流水线，有人直接调API硬编。

Superpowers的核心判断是：问题不在模型能力不够，而在开发方式本身缺乏标准。它不给你一个「万能代理」，而是提供一套可复用、可组合、可验证的开发方法论。

「代理开发应该从『依赖模型黑盒』转向『可定义、可验证的流程设计』」——这是Superpowers最核心的设计理念。

可组合技能架构，像搭乐高一样搭代理

框架把代理能力拆成「原子技能模块」——每个模块负责一件具体的事，比如「分析代码库结构」「生成单元测试」「解释报错信息」。这些模块可以单独测试、单独维护，也能按需组合。

这种模式的好处是，当你需要让代理做一件复杂的事（比如「重构这个API模块并加上测试」），不需要重新训练或重新设计提示词，只要把对应的技能模块组合起来就行。代理的行为也因此变得更可预测——你知道它在每一步调用的什么技能，而不是对着一段黑盒输出猜它「想干什么」。
- 技能模块独立可测，改一个不影响其他
- 支持跨项目复用，慢慢攒出自己的「技能库」
- 代理行为可追踪，哪一步调了什么技能一目了然
初始指令层：让代理行为可控

Superpowers另一个有意思的设计，是用「初始指令集」作为代理的逻辑入口，而不是直接把任务丢给底层大模型。这套指令定义了代理怎么解析目标、什么时候调哪个技能、遇到歧义怎么处理。

这样做的一个直接好处是，代理的输出稳定性大幅提升。你不用担心换一个模型，代理的行为就完全跑偏；只要初始指令层保持一致，代理在不同模型上的表现是可以预期的。

从实验脚本到生产应用，就差这一套方法论

过去一年多，我们看到无数「代理Demo」——能跑通一个特定任务，但换一个场景就跪。Superpowers想解决的，就是把这个「Demo到生产」的鸿沟填平。它提供的不只是代码框架，而是从设计、开发、组合、验证到部署的完整流程规范。

对于已经在使用Claude Code、Cursor等工具的开发者来说，Superpowers相当于在现有工具链上面，补了一层「代理设计图纸」。你可以继续用熟悉的CLI，但代理的能力组织和复用方式会系统性地升级。

📎 原文来源：Superpowers – A comprehensive methodology and framework for developing programming agents (GitHub)
2026年5月23日
Gemini Omni实测：我把deepfake视频发给老公，他信了

去年我做过一个实验：用 Gemini 把我们家小孩的毛绒玩偶”deepfake”成去度假的样子，看看 Google 广告里演示的那些功能到底靠不靠谱。当时我就觉得，AI 生成视频的工具已经好到让人有点不安了。

一年过去，Google 推出了新的生成模型家族，叫 Omni。官方说法是，它终有一天能把任意类型的输入（照片、视频、文字）转换成任意类型的输出。当然目前第一步还是生成视频。第一个公开发布的版本叫 Omni Flash，已经上线 Google 的 AI 视频平台 Flow。

本文所有图片和视频均由 Google Gemini 生成（图源：The Verge）

把 Buddy 玩偶送去”度假”

这次我请回了去年出镜的那只毛绒小鹿 Buddy，让它再跑一趟。给 Omni 的提示词是：”做一个蒙太奇，Buddy 打包行李准备登上邮轮去热带度假。氛围要可爱、好玩。Buddy 在行李箱里塞了件搞笑的东西，后面会在视频里用到。”

Omni 让 Buddy 塞了一罐蜂蜜进去。到了视频后面，Buddy 伸手去拿，拿的姿势像在拿防晒霜。”呃哦，”角色说了一句。

说实话（哦不行，我不能用这两个字），这段小幽默拍得还真不赖。但是——蜂蜜罐子在视频里一直在变：从玻璃罐，变成装水的透明挤压瓶，又变回装蜂蜜的挤压瓶。至于视频最后一帧那画面，我甚至不知道该怎么描述，就像模型把刚才生成的所有元素全吐出来堆在一起了。

Omni 生成视频的效果比5个月前我测 Veo 时要好，角色一致性提升了。但即使是最好的片段，也还是会有 AI 的”跳跃惊吓”——比如 Buddy 跳伞的时候突然整个朝向翻转了。

Deepfake 我自己

Omni 号称的强项之一，是能把 AI 生成的内容”贴”到真实视频上。于是我让 Buddy 休息，换自己上场。用一段面无表情的自拍视频当底子，让 Omni 生成我吃一盘意面、坐在飞机座位上、站在埃菲尔铁塔前咬一口法棍的视频。

结果让我有点措手不及。AI 告诉我的一些痕迹还是能看出来的：叉子碰碗的声音有点过于”制造”了；飞机视频背景里有个女性出现了两次（这显然不对）；埃菲尔铁塔那段，AI 版本的我把头发扎成了马尾——我平时根本不扎马尾。

但除了这些小毛病和一种说不清的”诡异感”，视频的逼真程度已经足够吓人。

连我老公都骗过了

我把吃意面的片段给我老公看了。他知道我在测 AI 视频工具，但我没告诉他画面里哪些部分是 AI 生成的。结果他没有看出来——他以为我就是对着一个摄像头在吃面，唯一觉得不对劲的地方是那个碗看着眼生。至于”吃面”这个动作本身，逼真到足以骗过跟我住了十年的人。

其他几个埃菲尔铁塔片段，有些看起来有点卡通，但其中有一个足够逼真，你可能要反复看几遍才能察觉是 AI 做的。我自己一看那个扎马尾的版本就知道不是我，但我不确定别人能不能看出来。这种感觉让我有点不舒服。

不是免费的，而且积分消耗挺快

当然，这一切都不是免费的。生成视频要消耗积分，根据场景长度和输入素材不同，消耗 15 到 40 积分不等。单次编辑要消耗 40 积分。我现在用的是每月 20 美元的 AI Pro 套餐，每月有 1000 积分。测了大约 20 个片段、部分做了编辑之后，我剩 145 积分。

如果你对视频有比较具体的想法，可能要跟模型来回折腾不少次才能接近你想要的效果——每次编辑都要烧积分。

我们确实已经深陷”恐怖谷”了。

麻木了，但不代表没事

说句实话（唉），我有点累了。几年前第一次测 Veo 3 的时候，我被它生成的真实感震惊了。过去几年，我一次又一次被 AI 生成假人、假照片的容易程度震惊。按理说 Omni 也应该让我震惊才对——我想它确实让我震惊了，但那种冲击力已经钝了。

做出”以假乱真”的 AI 视频，还没有 Google 想让你相信的那么容易。但 Omni 确实在某些肉眼可见的维度上比 Veo 强。只要你有一个 Google 账号和一张信用卡，你就能拍一段自己坐在家里的视频，然后让它看起来像你正坐在飞往毛伊岛的航班上——付出的努力几乎可以忽略不计。

我们可能还没到 Hassabis 说的”奇点的山麓”那么夸张，但确实已经深陷恐怖谷之中了。

📎 原文来源：The Verge – Google’s new anything-to-anything AI model is wild

2026年5月23日
AlphaFold拿诺奖才5年，Google就开始转向了

上个星期 Google I/O 的大会上，DeepMind CEO Demis Hassabis 上台说了一句话：”我们正站在奇点的 foothills（山麓）。”奇点嘛，就是那个 AI 智能超过人类、世界被彻底改变的理论时刻。听起来挺玄的。

但仔细看他说这话的语境，就有点意思了。当时台上在讲 Google 的 AI 科研工具，重点展示了一段视频——用 WeatherNext（Google 的天气预报 AI）提前预警了去年 Hurricane Melissa 在牙买加的灾难性登陆，可能救了不少人。这确实是了不起的成就，但它跟”奇点”还差得远呢。

Demis Hassabis 在 Google I/O 2026 上讲述 AI for Science 的新方向（图源：MIT Technology Review）

两条路线的分歧

这件事其实暴露了 Google 在”AI for Science”上的两条路线之争。一条是做专门的科研工具——比如 WeatherNext 预测天气、AlphaFold 预测蛋白质结构、AlphaGenome 做基因研究——这些工具针对特定科学问题设计，效果扎实，已经被全世界 300 多万研究人员在用。

另一条路线更有野心：做出能自主做科研的 AI 智能体。不需要人类一步一步指导，AI 自己就能提出假设、设计实验、得出结论。这就是今年 Google I/O 上发布的 Gemini for Science 包背后的逻辑——把好几个基于大语言模型的科研系统整合到一个品牌下面。

“我们正朝着这样的 AI 前进：它不只是辅助科学研究，而是开始自己做科学。”——Pushmeet Kohli，Google Cloud 首席科学家

AlphaFold 的诺贝尔奖得主，被调去搞 AI 编程了

这条新闻最让人玩味的地方来了。上个月《洛杉矶时报》曝出：Google Fellow John Jumper——就是靠 AlphaFold 拿了诺贝尔奖的那位——现在被调去搞 AI 编程，不再专门做科研 AI 工具了。

这不难理解。Google 最近在 AI 编程工具上被 Anthropic 的 Claude Code 和 OpenAI 的工具压了一头，声誉受损，当然要把最顶尖的人才调过去追赶。但这也释放了一个信号：Google 正在把资源和注意力从”专门科研 AI 工具”往”通用 AI 科研智能体”偏移。

AI 自己证伪数学猜想，意味着什么

就在本周，OpenAI 宣布他们的一个模型证伪了一个重要的数学猜想——据一些数学家说，这是生成式 AI 迄今对数学领域做出的最有意义的贡献。有意思的是，OpenAI 用的这个模型并不是专门为数学设计的，而是一个通用推理模型，属于 GPT-5.5 那个系列。

这说明通用 AI 智能体确实已经开始在科研领域做出实质性贡献了。如果它们能在数学上做到，那么在其他科学领域（当然要慢一些，因为科学结论需要实验验证）大概也只是时间问题。

Gemini for Science 现在能干什么

本次 I/O 发布的 Gemini for Science 包含两个主要工具：AI Co-Scientist（生成科研假设）和 AlphaEvolve（优化算法）。目前还没对公众开放，但 Google 已经允许研究人员申请试用权限了。

早期测试的反馈不错。斯坦福大学的遗传学家 Gary Peltz 在《自然·医学》上发文，把用 AI Co-Scientist 比作”咨询德尔菲神谕”——也就是问神的意思。这个比喻挺传神的：AI 给出的假设不一定对，但需要人类专家去判断和验证。

当然，专门的科研工具（比如 AlphaFold）和通用 AI 科研智能体并不是非此即彼的关系。智能体可以调用专门工具作为”工具库”的一部分。没有 AlphaFold 的帮助，任何 AI 系统目前都别想把蛋白质折叠结构预测准。但 Google 显然在把公众形象——以及至少一部分资源和人才——从专门工具的开发，转向更通用的方向。

“合作者”，而不是”替代者”

Google 在对外表态上很谨慎，一直强调这些科研 AI 智能体是”加速人类科学家工作的工具”，而不是取代他们。比如，这个工具叫”AI Co-Scientist”而不是”AI Scientist”，这个命名选择看起来相当刻意。

Hassabis 在采访里也用了类似的说法：”在未来十年左右，我们应该把 AI 看作帮助科学家的神奇工具。再往后，就很难有把握了，但也许这些系统会变得更像合作者。”

但问题在于：一个有效的科研合作者，本身必须先是一个合格的科研工作者。如果 Hassabis 说的”奇点的山麓”不是吹牛，那么 AI 科研智能体最终超过人类同行，并不是天方夜谭。

Hassabis 在 I/O 期间跟记者 Mike Allen 聊天时提到，他最早被 AI 吸引，是因为看到物理学在 1970 年代之后进展停滞了；他在想，人类心智是不是在这个领域已经触到了天花板，也许 AI 能帮我们突破这个壁垒。超人类的 AI 科研智能体，确实符合这个描述。

我们也许永远到不了那一步。但 Google 看起来正在往那个山顶爬。只是不知道，等到了之后，站在山顶的还会不会是我们人类。

📎 原文来源：MIT Technology Review – Google I/O showed how the path for AI-driven science is shifting

2026年5月23日
MetaGPT：68.2k Stars！SOP驱动的多智能体协作框架，让AI组成一家软件公司
🤖 MetaGPT：68.2k Stars！SOP驱动的多智能体协作框架，让AI组成一家软件公司

📋 项目简介

MetaGPT 是一个多智能体协作框架，核心理念是 Code = SOP(Team)——把标准化作业流程（SOP）具象化，应用于由大语言模型（LLM）构成的团队。它模拟真实软件公司的组织架构与工作流程，让多个AI智能体扮演产品经理、架构师、工程师、测试员等角色，协同完成复杂任务。

简单来说：你给它一句话需求，它能自动输出用户故事、竞品分析、需求文档、数据结构设计、API文档、相关代码文件等完整交付物——就像一家全自动化的软件公司。

🌐 官方资源：
• GitHub：https://github.com/FoundationAgents/MetaGPT
• 文档：https://docs.deepwisdom.ai/
• Stars：68.2k+（持续增长中）

⚙️ 安装要求和过程

环境要求
```
# Python 3.9+ 必需
# 建议使用 Conda 或 venv 创建独立环境
# 需要有效的大模型API密钥（OpenAI / Azure / 其他支持LLM）
```
快速安装步骤
```
# 方法一：pip安装（稳定版）
pip install metagpt

# 方法二：从源码安装（最新功能）
git clone https://github.com/geekan/MetaGPT.git
cd MetaGPT
pip install -e .

# 配置API密钥
# 复制配置模板
cp config/config2.yaml config/key.yaml
# 编辑 key.yaml，填入你的 LLM API 密钥
```
验证安装
```
# 运行示例：构建一款Flappy Bird游戏
metagpt "Design a Flappy Bird game"
```
✨ 核心功能

1. 需求到交付的全流程自动化

输入一句话的老板需求，MetaGPT 自动完成：需求分析 → 竞品调研 → 用户故事 → 架构设计 → 代码实现 → 测试用例。全程无需人工干预，每个环节都有对应角色的智能体负责。

2. SOP驱动的多角色协作

这是 MetaGPT 的独门绝技。SOP（Standardized Operating Procedures） 被编码到提示词序列中，让每个智能体都具备类人的领域专业知识和标准化的协作流程。产品经理写PRD、架构师出设计方案、工程师写代码——各司其职，有序协作。

3. 可扩展的多智能体框架

不局限于软件公司场景。你可以基于 MetaGPT 框架自定义搭建各类多智能体应用：数据分析、内容创作、科研助手、游戏NPC……框架层提供通信、记忆、工具调用等基础能力，你只需定义角色和SOP。

4. 丰富的内置示例场景

官方提供了大量可直接运行的示例，覆盖：单智能体（数据分析、OCR识别、邮件回复、图像去背景）和多智能体（辩论、狼人杀、Minecraft自动化、斯坦福小镇模拟）两大类别。

🚀 典型使用场景

场景一：老板的一句话，变成可运行的软件

你对着 MetaGPT 说：”帮我做一个类似Trello的任务管理工具，支持拖拽排序和实时协作。” —— 几分钟后，你将获得：需求文档、技术架构图、数据库设计、API接口文档、前端代码、后端代码、单元测试用例。当然，代码质量取决于底层模型的能力，但框架保证了”软件公司流水线”的完整运转。

场景二：多智能体科研/创作助手

MetaGPT 的多智能体机制不仅限于写代码。你可以设计一个”科研助手”团队：一个智能体负责文献检索，一个负责提炼核心观点，一个负责撰写综述，一个负责格式校对。相比单一AI对话，这种方式更接近于真实的团队协作，产出质量通常更高。

场景三：教学/研究多智能体机制

MetaGPT 本身就是多智能体研究的优秀案例。学术界用它来验证 SOP 编码、角色分工、通信协议等设计理念。如果你在研究或学习多智能体系统，MetaGPT 的源码和论文都是极佳的参考资料。

💡 推荐理由

🎯 为什么值得关注？

1. 理念先进，不只是”多个ChatGPT并联”
很多多智能体框架只是把多次LLM调用串起来，MetaGPT 的核心贡献在于把 SOP 编码进 prompt 序列，让智能体的协作有章可循，而不是自由发挥。这是从”对话式AI”走向”流程化AI”的关键一步。

2. 软件公司隐喻非常直观
用”产品经理 → 架构师 → 工程师 → 测试”的流程来组织智能体，降低了理解门槛，也方便了提示词工程的设计。即使是AI小白，也能理解每个角色在干什么。

3. 与 CrewAI 形成有趣对比
我们之前介绍过 CrewAI（轻量高性能），MetaGPT 则更偏”重流程、重规范”，两者定位不同，可以互补使用。

4. 成本可控
官方给出参考：用 GPT-4 生成包含分析和设计内容的样例约需 $0.2，生成完整项目约需 $2.0。对于自动化生成项目原型来说，这个成本是可以接受的。

📥 下载地址

GitHub github.com/FoundationAgents/MetaGPT
官方文档 docs.deepwisdom.ai
PyPI pip install metagpt
论文 MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework

📌 这是「GitHub热门AI开源项目」第26期，由 WorkBuddy AI 自动采集撰写。欢迎关注 admin.hiyoho.com 获取更多AI开源项目深度介绍。
2026年5月23日
SpaceX星舰V3首飞实录：助推器回收失败，IPO前的关键一役
SpaceX本周搞了两个大动作：一边向SEC递交了IPO申请，准备6月中旬在纳斯达克上市；另一边把升级版的星舰V3送上了天。两个动作凑在一起，让这次试飞的意义不只是”又飞了一次”那么简单。

星舰V3从德州Starbase发射升空（图源：TechCrunch）

407英尺，人类最强火箭首飞

星舰V3高度407英尺（约124米），是人类历史上建造过的最强大的火箭。本次发射在德州Starbase进行，当地时间下午5:30准时升空。

发射几分钟后，上级星舰与超重型助推器分离，继续向太空飞行。助推器则调头准备返回，按计划应该在墨西哥湾模拟着陆。但问题来了——助推器的发动机没有正常重新点火，用来完成返回着陆的持续燃烧没能实现。结果助推器直接栽进了海里，大概率当场爆炸。

上级星舰的表现相对好一些：虽然6台猛禽发动机中有1台在空中熄火，但还是成功部署了全部20个星链卫星模拟器，外加2颗经过改装的、用来拍摄星舰外表面的星链卫星。

约1小时 after liftoff，星舰在印度洋模拟着陆，然后按预期翻倒爆炸。整个任务只能说勉强成功。

为什么这次试飞很重要

这是星舰V3硬件的首次实战测试，SpaceX已经研发了好几个月。同时，这次还测试了Starbase的全新发射台——这个发射台SpaceX自己建了好几年。

但更关键的背景是：SpaceX的IPO文件本周公开，预计6月中旬在纳斯达克上市，募资规模约750亿美元。这笔钱SpaceX打算用来：继续研发、推进庞大的AI野心、偿还与xAI和X（马斯克的社交媒体公司）相关的债务。
- 星舰是SpaceX实现”让生命多行星化”使命的核心载体
- 短期内的主要任务是部署更先进的星链卫星（星链是SpaceX唯一盈利的业务）
- 第三代猛禽发动机推力更大、设计更简化；新助推器设计支持更快的发射节奏和更便捷的发射塔回收
IPO前的这次失败，影响有多大？

这次试飞是2025年10月以来星舰的首次飞行。之前SpaceX本来计划更早试射V3，但2025年11月一台升级版助推器在测试中发生爆炸，计划被迫推迟。周四的发射尝试也因为发射塔臂上的液压销不肯收回而取消——马斯克本人说的。

助推器回收失败对IPO估值的影响，现在还不好说。SpaceX的招股书里肯定会把星舰作为未来业务的核心支柱之一来讲故事，但投资者更关心的可能是：星链业务的现金流、xAI的整合逻辑、以及马斯克的政治风险。

星舰V3这次没完全成功，但也没完全失败。对于一家即将上市、要讲”太空+AI”大故事的 company来说，这样的测试结果，刚好够用，但肯定不够漂亮。

📎 原文来源：TechCrunch – SpaceX launches Starship V3 for the first time, but loses booster on return
2026年5月23日
AI重建已故飞行员声音，NTSB紧急封锁公共档案访问
去年一起UPS货机坠毁事故中，遇难飞行员的声音最近被人用AI给”还原”出来了。这事儿听起来像科幻电影情节，但它真实发生了，而且就在美国国家运输安全委员会（NTSB）的公共档案系统里被人”淘”出来的。

声谱图变声音，AI做到了

事情是这样的。NTSB的公共文档系统里存着大量事故调查数据，按法律规定，驾驶舱录音是不能直接公开的。但这次UPS 2976航班（肯塔基州路易斯维尔坠毁）的调查文档里，包含了一份语音记录器的声谱图——简单说，就是把声音信号转换成图像的数学文件。

UPS 2976航班肯塔基州坠毁现场（图源：Getty Images）

知名YouTuber、精通物理和天文学的Scott Manley在X平台上指出：声谱图编码了数兆字节的数据，理论上可以从中重建出对应的音频。果然，有网友结合了这份声谱图和公开的文字记录，用Codex等AI工具，把驾驶舱语音记录器的近似音频给重建出来了，然后放到了互联网上传播。

声谱图本身不是音频，但AI工具可以从图像”逆向”出近似的声音。这就像给你一张钢琴键按下的照片，有人能帮你”听”出弹的是什么曲子。

NTSB紧急应对：史上首次关闭公共档案

NTSB发现这件事之后，做了一个史无前例的决定——临时封锁了公共档案系统的访问权限。原因很明确：他们担心这种技术被滥用，会侵犯事故相关人员的隐私，也会破坏调查记录的完整性。

上周五，NTSB恢复了文档系统的公共访问，但包括UPS 2976航班调查在内的42项调查暂时没有开放，正在等待进一步审查。也就是说，这些档案会不会重新公开、以什么形式公开，现在还是个问号。

技术跑在规则前面

这个事件暴露的问题挺值得想一想。NTSB的文档系统历史上一直对公众开放，声谱图文件本身也不包含可直接播放的音频，按之前的理解，这并不违反禁止公开驾驶舱录音的法律。

但AI改变了这个等式。原本”安全”的公开数据，在AI工具的作用下，可以被转换成原本受法律保护的敏感内容。这说明，很多机构的信息公开规则，可能需要重新评估一遍——哪些数据现在看起来没问题，但配上AI工具之后，就会变成隐私泄露的源头。
- 公共调查数据中的衍生数据（声谱图、频谱图等）是否需要重新分类？
- AI还原音频的准确性和伦理边界在哪里？
- 技术公司开发这类AI工具时，是否需要考虑滥用场景？
这件事还没有引起大规模公众讨论，但它是AI时代一个非常典型的困境：技术能力已经超出了规则制定的速度。NTSB的应对至少是迅速的，但下一次，可能就不会这么简单了。

📎 原文来源：TechCrunch – AI is being used to resurrect the voices of dead pilots
2026年5月23日
Waymo 的高速野心，被一段积水路拦住了
高速路上的Waymo，先停了

本周四，不少 Waymo 用户打开打车软件时发现：高速公路选项消失了。原本几分钟能走完的路程，现在系统提示要走地面道路，时间直接翻倍。

Waymo 后来确认了：出于对施工区域的担忧，全美所有运营市场的高速公路驾驶服务全部暂停。与此同时，亚特兰大和圣安东尼奥两个城市的全部服务也停了，原因是洪水退去后道路还有遗留问题。

Waymo 的自动驾驶出租车——高速公路服务现已暂停

导火索是德州的积水路

事情的直接起因挺尴尬：多辆 Waymo 自动驾驶出租车被拍到在德克萨斯州被淹的道路中高速行驶。视频在网上传开后，Waymo 不得不对整个车队发起软件召回。

我们致力于成为用户和社区的友好伙伴。作为承诺的一部分，我们会做出主动决策，包括暂时暂停部分服务。

—— Waymo 发言人 Chris Pappas

发言人说暂停是”出于对施工区域的担忧”，但没具体说车辆在施工区域遇到了什么问题。地面道路驾驶服务不受影响，但高速这块先按下暂停键。

高速公路是个关键能力

这事对 Waymo 的扩张计划影响不小。高速公路驾驶能力被视为跟 Uber、Lyft 这些有人驾驶网约车竞争的关键——能走高速意味着更快、更高效，尤其是机场这种盈利路线，高速是标配。
- 目前每周完成约 50 万次付费行程，目标是每周 100 万次
- 高速公路服务暂停前仅覆盖 4 个城市：旧金山、洛杉矶、凤凰城、迈阿密
- 即将部署新车：吉利旗下极氪打造的 Ojai 电动面包车，搭载第六代自动驾驶软件
最近有点水逆

这次暂停是 Waymo 近期一系列负面事件中的最新一起。尽管数据显示它的车在减少交通事故和伤亡方面确实有进步，但极端场景下的表现还是让人捏把汗。

前几天在亚特兰大，一辆空驶的 Waymo 堵在死胡同里，把整个社区的交通搞瘫痪了。达拉斯也有司机拍到一辆 Waymo 在繁忙路口闯红灯。虽然这些是个例，但凑在一起，给人的感觉是：技术还没完全准备好应对复杂现实。

目前 Waymo 没有给出恢复高速公路服务的时间表，亚特兰大和圣安东尼奥的服务恢复时间也一样。对于一家正在激进扩张、准备大规模商业化的公司来说，这种不确定性不是什么好信号。

📎 原文来源：The Verge – Waymo suspends freeway driving amid safety concerns
2026年5月23日

标签： AI

Arena排名#13，数学能力全球第7

闭源旗舰+开源次旗舰的双轨策略

实际用起来怎么样

定价和可用性

LangGraph：32.6k Stars！LangChain官方Agent编排框架，让复杂AI工作流可视化可控

📦 项目简介

⚙️ 安装要求和过程

环境要求

快速安装

验证安装

🎯 核心功能

🔄 图结构编排

💾 状态管理

🔄 循环与人工干预

📊 可视化调试

🚀 生产级部署

💡 典型使用场景

📰 场景1：多步骤研究报告生成

🤖 场景2：多Agent协作客服系统

🔄 场景3：代码审查与重构助手

🌟 推荐理由

1️⃣ 可视化让复杂逻辑变得清晰

2️⃣ 状态管理避免了”意大利面条式”代码

3️⃣ 与LangChain生态深度集成

4️⃣ 生产级特性让部署不再头疼

📥 下载地址

看板+AI代理，拼在一起是什么体验

自动驾驶模式：设好预算，让代理自己干活

实际用起来是什么感觉

本地优先，数据不离开你的设备

碎片化开发的痛点，它想一次解决

可组合技能架构，像搭乐高一样搭代理

初始指令层：让代理行为可控

从实验脚本到生产应用，就差这一套方法论

把 Buddy 玩偶送去”度假”

Deepfake 我自己

连我老公都骗过了

不是免费的，而且积分消耗挺快

麻木了，但不代表没事

两条路线的分歧

AlphaFold 的诺贝尔奖得主，被调去搞 AI 编程了

AI 自己证伪数学猜想，意味着什么

Gemini for Science 现在能干什么

“合作者”，而不是”替代者”

🤖 MetaGPT：68.2k Stars！SOP驱动的多智能体协作框架，让AI组成一家软件公司

📋 项目简介

⚙️ 安装要求和过程

环境要求

快速安装步骤

验证安装

✨ 核心功能

1. 需求到交付的全流程自动化

2. SOP驱动的多角色协作

3. 可扩展的多智能体框架

4. 丰富的内置示例场景

🚀 典型使用场景

场景一：老板的一句话，变成可运行的软件

场景二：多智能体科研/创作助手

场景三：教学/研究多智能体机制

💡 推荐理由

📥 下载地址

407英尺，人类最强火箭首飞

为什么这次试飞很重要

IPO前的这次失败，影响有多大？

声谱图变声音，AI做到了

NTSB紧急应对：史上首次关闭公共档案

技术跑在规则前面

高速路上的Waymo，先停了

导火索是德州的积水路

高速公路是个关键能力

最近有点水逆