标签: AI Agent

  • Superpowers:204k Stars!给AI编程智能体装上方法论,像资深工程师一样工作

    Superpowers:204k Stars!给AI编程智能体装上方法论,像资深工程师一样工作

    GitHub ⭐ 204k+ Stars · MIT License · 2025年10月发布 · 第30期

    如果你正在用 Claude Code、Cursor 或 Copilot 写代码,有没有一种感觉:AI 能写,但写得乱、改得飘、测不住。你让它实现个功能,它噼里啪啦一顿输出,跑起来才发现逻辑是错的,测试一个没写。

    这不是你的问题,是 AI 缺少”方法论”。

    今天要介绍的这个项目,给 AI 装上了一套完整的软件开发流程——需求澄清、方案设计、测试驱动、子智能体分工、代码评审,一套下来让 AI 像资深工程师一样工作。它就是本周 GitHub 趋势榜第一名,204k Stars 的 Superpowers。

    · · ·

    01项目是什么

    Superpowers 是一套面向编程智能体(Coding Agent)的完整软件开发方法论,基于可组合技能集和初始指令构建。装上它之后,你的 Claude Code / Cursor / Copilot 会自动遵循一套严谨的软件工程流程来工作,而不是想到哪写到哪。

    它的核心思想是:AI 不缺写代码的能力,缺的是”知道该怎么写”的方法论。Superpowers 把资深工程师的工作习惯——先澄清需求、再出方案、写测试、小步迭代、代码评审——全部固化成了可触发的技能,智能体启动时自动生效,不需要你手动干预。

    项目由 Jesse Vincent(blog.fsck.com)和 Prime Radiant 团队共同维护,2025年10月首发,到2026年5月已经积累 20.4万 Star,是AI 编程工具领域最热门的项目之一

    · · ·

    02安装要求与过程

    Superpowers 支持目前几乎所有主流编程智能体工具,不同工具的安装方式不同。以下是最常用的几种:

    🤖 Claude Code

    # 官方市场安装
    /plugin install superpowers@claude-plugins-official
    
    # 或自定义市场
    /plugin marketplace add obra/superpowers-marketplace
    /plugin install superpowers@superpowers-marketplace

    ⚡ Cursor

    # 在 Agent 聊天框中从市场安装
    /add-plugin superpowers
    
    # 或在插件市场搜索 "superpowers" 安装

    🔷 GitHub Copilot CLI

    # 注册市场
    copilot plugin marketplace add obra/superpowers-marketplace
    
    # 安装插件
    copilot plugin install superpowers@superpowers-marketplace

    🌐 Gemini CLI

    gemini extensions install https://github.com/obra/superpowers
    💡 提示:如果你同时使用多个编程智能体工具,每个工具都需要单独安装一次。安装完成后无需额外配置,智能体启动时会自动加载技能。
    · · ·

    03核心功能

    ① 需求澄清(Brainstorming)

    智能体不会直接写代码,而是先和你沟通,通过苏格拉底式提问提炼出你的真实需求,输出分段的可读需求规格文档供你确认。避免”你以为它懂了,其实它没懂”的尴尬。

    ② 测试驱动开发(TDD)

    严格执行「红→绿→重构」循环:先写失败测试 → 确认测试失败 → 写最小实现代码 → 确认测试通过 → 提交代码。每一个功能都有对应的测试保护,重构不慌。

    ③ 子智能体并行开发(Subagent-Driven Development)

    计划确认后,启动子智能体驱动开发流程,每个子智能体负责单个工程任务,主智能体负责检查和评审。Claude 最高可无人值守连续工作数小时不偏离计划。

    ④ 系统化调试(Systematic Debugging)

    内置4阶段根因分析流程,包含根因追踪、纵深防御、基于条件的等待等技术。不是”猜哪里错了”,而是系统化地定位问题根因。

    ⑤ 代码评审关卡(Code Review Gates)

    每个任务完成后自动触发代码评审,按严重程度上报问题,严重问题会阻塞流程推进。相当于给 AI 配了一个严格的 Tech Lead,每一步都要过审。

    · · ·

    04典型使用场景

    场景一:从零开始做一个新功能

    你:“帮我做一个用户登录功能,支持邮箱和密码”

    普通 AI:直接开写,写完发现没考虑密码加密、没做输入校验、没写测试。

    装上 Superpowers 的 AI:先和你确认需求细节(密码策略?Session 还是 JWT?要不要限流?),输出设计方案让你确认,再拆解成 2-5 分钟的小任务,每个任务先写测试再写实现,完成后自动跑评审。最终交付的是一套有测试、有规范、可维护的代码。

    场景二:修复一个顽固 Bug

    你:“这个接口偶尔超时,不知道为什么”

    普通 AI:猜可能的原因,改几行,说”试试看”。

    装上 Superpowers 的 AI:启动系统化调试流程,4 个阶段逐步缩小范围——先确认复现条件,再追踪根因,检查是否存在竞争条件或资源泄漏,最后给出修复方案并验证修复后没有引入新问题。

    · · ·

    05为什么值得用

    🌟 推荐理由

    它解决的是真问题。

    现在 AI 编程工具的瓶颈,已经不是”能不能写代码”,而是”写出来的代码能不能用”。Superpowers 的本质,是把软件工程的最佳实践”固化”成了 AI 可以执行的技能,让 AI 不再是”写代码很快但不靠谱的初级工程师”,而是”有方法论、有流程、有质量意识的高级工程师”。

    我特别喜欢它的几个设计:

    • 需求澄清放在写代码之前——这和最优秀的工程师工作习惯完全一致,先想清楚再动手;
    • TDD 是强制流程而非可选建议——避免了 AI 偷懒跳过测试的经典问题;
    • 子智能体架构——主智能体做规划和评审,子智能体做执行,职责分离,不容易偏离方向。

    目前这个项目在 GitHub 上 20.4 万 Star,且支持 Claude Code、Cursor、Copilot、Gemini CLI 等所有主流工具,基本上如果你在用 AI 写代码,就没有理由不装

    · · ·

    06相关资料

    GitHub 仓库 github.com/obra/superpowers
    官方网站 primeradiant.com/superpowers
    发布公告 Jesse Vincent 的博客
    Discord 社区 加入讨论
    开源协议 MIT License

    本文由 AI 助手整理,内容参考项目 GitHub README 及官方文档,如需更正或补充欢迎留言。

  • Unsloth:让LLM微调变得简单高效,消费级GPU也能训练大模型

    Unsloth:让LLM微调变得简单高效,消费级GPU也能训练大模型

    🚀 项目简介

    Unsloth 是一个开源的LLM微调框架,由 Unsloth AI(YC S24 批次)开发。它通过将 VRAM 使用量降低 70% 并将训练速度提高 2 倍,彻底改变了 LLM 微调方式。Unsloth 支持 Llama、Mistral、Phi、Gemma 等主流大模型,让消费级 GPU 也能训练大规模语言模型。

    Unsloth Logo

    Unsloth – 让LLM微调触手可及

    📦 安装要求和过程

    环境要求

    • Python: 3.8+
    • PyTorch: 2.0+(推荐最新版)
    • CUDA: 12.1+(用于GPU加速)
    • VRAM: 最低 6GB(通过Unsloth优化后可训练7B模型)
    • 磁盘空间: 20GB+(取决于模型大小)

    快速安装

    # 方式1:使用 pip 安装(推荐)
    pip install unsloth
    
    # 方式2:从源码安装最新版
    pip install "unsloth @ git+https://github.com/unslothai/unsloth.git"
    
    # 方式3:使用 Conda 环境
    conda create -n unsloth python=3.10
    conda activate unsloth
    pip install unsloth
    

    验证安装

    from unsloth import FastLanguageModel
    print("Unsloth 安装成功!")
    

    💡 提示:Unsloth 支持 Windows、Mac(M系列芯片)、Linux 全平台,无需复杂配置即可上手。

    ⚡ 核心功能

    1. 显存优化技术

    Unsloth 通过创新的显存优化技术,将 VRAM 使用量降低 70%

    • 梯度检查点(Gradient Checkpointing):智能释放中间激活值
    • 4-bit/8-bit 量化:使用 BitsAndBytes 进行低精度训练
    • LoRA/QLoRA:仅训练少量参数,大幅降低显存需求
    • 智能批处理:动态调整 batch size,最大化显存利用率

    2. 训练速度提升

    相比标准 PyTorch/Hugging Face 方案,Unsloth 训练速度提升 2倍

    • 手动优化的 CUDA kernels
    • 自动混合精度(AMP)训练
    • 高效的数据加载和预处理管道
    • 支持 Flash Attention 2 加速

    3. 广泛的模型支持

    Unsloth 支持所有主流开源大模型:

    • Llama 3/3.1/3.2/4 系列(8B/70B/405B)
    • Mistral 7B / Mixtral 8x7B
    • Phi-3/3.5 系列(Microsoft)
    • Gemma 2/3 系列(Google)
    • Qwen 2/2.5 系列(阿里巴巴)
    • DeepSeek V3/R1 系列
    • 支持自定义模型架构

    4. 便捷的微调方式

    提供多种微调方法,适应各种场景:

    • LoRA:低秩适配,参数效率高
    • QLoRA:4-bit量化的LoRA,显存需求极低
    • 全参数微调:追求极致性能的场景
    • DPO/ORPO:人类偏好对齐训练
    • 持续预训练:领域知识注入

    5. 本地和云端部署

    训练完成后,模型可以轻松部署:

    • 导出为 GGUF 格式(用于 Ollama、LM Studio)
    • 导出为 Safetensors 格式(用于 vLLM、TGI)
    • 一键上传到 Hugging Face Hub
    • 支持 ONNX/TensorRT 加速推理

    🎯 典型使用场景

    场景1:垂直领域模型定制

    需求:某医疗公司需要将通用大模型定制为医疗问答助手。

    方案:使用 Unsloth 在 Llama 3.1 8B 基础上,用 LoRA 微调医疗对话数据(10万条),仅需单张 RTX 4090(24GB VRAM)。

    效果:训练时间 6 小时,模型在医疗问答任务上准确率达到 92%,可离线部署在医院内网。

    场景2:多语言客服机器人

    需求:跨境电商需要支持英/法/德/日/韩五语的智能客服。

    方案:使用 QLoRA 微调 Mistral 7B,将多语言客服对话数据(50万条)注入模型,显存占用仅 8GB。

    效果:模型在五语言客服场景的意图识别准确率提升 35%,响应延迟 <200ms。

    场景3:代码生成助手

    需求:企业需要将通用代码模型定制为内部框架专属的代码生成工具。

    方案:基于 CodeLlama 34B,使用 Unsloth 进行全参数微调,学习企业内部代码库(100万行代码)。

    效果:代码生成准确率提升 40%,支持企业内部框架的自动补全和 bug 修复建议。

    💎 推荐理由

    为什么选择 Unsloth?

    1. 显存门槛大幅降低
    传统方案训练 Llama 3.1 8B 需要 60GB+ VRAM,Unsloth 通过 QLoRA 只需 6GB,这意味着用 RTX 3060(12GB)就能微调 7B 模型,让个人开发者和小型团队也能玩转大模型。

    2. 训练速度行业领先
    Unsloth 团队手动优化了 30+ CUDA kernels,训练速度比 Hugging Face Transformers 快 2倍。对于需要频繁迭代微调的场景(如 A/B 测试不同数据集),时间成本的降低非常可观。

    3. 社区活跃,文档完善
    Unsloth 在 GitHub 上获得 42.8k+ stars,拥有活跃的 Discord 社区(2万+成员)。官方提供 50+ 微调示例笔记本(Google Colab 一键运行),从零基础到生产部署全覆盖。

    4. 商业友好
    Unsloth 开源版本采用 Apache 2.0 协议,允许商用。提供云端 SaaS 平台(Unsloth Studio),支持无代码微调和一键部署,适合企业用户。

    5. 持续跟进最新模型
    Unsloth 团队与主流模型发布保持同步,通常在模型发布 24小时内 提供优化支持。例如 Llama 3.2、Phi-3.5、Gemma 2 都在发布当天就能通过 Unsloth 微调。

    📥 下载地址

    ⚠️ 系统要求:虽然 Unsloth 显存优化出色,但训练大规模模型(如 70B+)仍建议使用专业GPU(A100/H100)。对于个人学习和小模型实验,消费级GPU(RTX 3060/4060/4090)完全够用。


  • 微软联手Anthropic,把Claude智能体塞进Office全家桶





    微软联手Anthropic,把Claude智能体塞进Office全家桶


    微软联手Anthropic,把Claude智能体塞进Office全家桶

    昨天(5月23日)的一则消息,可能预示着AI助手大战进入了新阶段。微软正在和Anthropic合作,要把基于Claude的智能体直接塞进Office应用里——Excel、Word、PowerPoint,一个都不放过。

    从聊天窗口到生产力工具,AI智能体正在”下沉”

    这件事挺有意思的。过去两年,我们习惯了打开ChatGPT或者Claude的网页,在对话框里和AI聊天。但微软想做的,是把AI智能体直接嵌进你每天用的那些软件里。

    你在Excel里处理数据,需要分析趋势?不用切换到浏览器打开ChatGPT了,直接在Excel里喊Claude帮忙。你在Word里写方案,需要查资料?Claude就在旁边等着。这种”AI无处不在”的体验,才是微软真正想推的。

    “AI工作流正从独立聊天工具,向生产力软件内置的自主化功能转型。”——AI Flash Report

    不只是微软,谷歌也在”系统级”押注AI

    就在微软和Anthropic搞合作的同一周,谷歌也没闲着。他们把Gemini直接嵌进了Android 17系统,还预览了内置”智能体”功能的新版Chrome浏览器。

    更夸张的是,DeepMind还推出了一个叫”AI鼠标”的东西——你把鼠标悬停在屏幕上,它就能理解上下文,给你提供AI辅助。你说这是鼠标还是AI助手?已经分不清了。


    加州出手了:AI生成的内容必须打水印

    另一边,监管也在跟进。加州州长本周签了个行政命令,要求州政府机构制定”可信AI”采购规则。什么意思呢?就是以后加州的政府部门买AI服务,得先看看这个AI够不够”可信”。

    这个行政命令还专门提到了水印标准——AI生成的图片、视频,必须打上水印,让人一眼就能看出来这是AI弄出来的。这对那些用AI造假的人来说,可不是什么好消息。

    芯片不够用了,AI正在”抢”消费电子的饭碗

    最后说个有点吓人的事。美国议员最近警告说,AI数据中心对芯片的需求太大了,已经影响到智能手机、消费电子这些产品的供应了。

    你想想,芯片厂产能就那么多,AI公司拿走了大部分,留给手机、电脑的就不多了。这会导致什么?物价上涨。所以有人说,AI boom看起来很美好,但普通老百姓买手机、买电脑可能要花更多钱了。

    这一周AI圈发生的事,其实指向同一个方向:

    • AI正在从”聊天窗口”走向”系统级集成”——微软、谷歌都在这么做
    • 监管开始动真格了——加州的水印要求只是开始,未来会有更多类似政策
    • 芯片短缺不只是AI公司的问题,它会影响到每个人的生活
    • AI助手大战已经从”谁的模型更聪明”变成”谁的AI更容易用到”


    说到底,微软这步棋下得很精明。他们不和OpenAI死磕,而是把Anthropic的Claude也拉进来,让自己的Office全家桶同时支持多个AI。对用户来说,这是好事——选择多了,竞争来了,产品自然会更好用。


  • Google I/O 2026万字解读:Gemini 3.5 Flash炸场,24小时在线的AI助手来了

    Google I/O 2026万字解读:Gemini 3.5 Flash炸场,24小时在线的AI助手来了

    北京时间5月20日凌晨1点,Google I/O 2026在加州山景城开幕。如果说去年的大会还在讲”AI优先”,今年Sundar Pichai直接把话挑明了:”Google Search就是AI Search”。整场发布会看下来,一个很清晰的信号是:Google正在把Gemini塞进你能想到的所有产品里。

    Gemini月活用户已达9亿,过去一年Google处理的Token达3.2千万亿,同比增长7倍。这个体量,已经不是”在做AI”,而是”AI就是它本身”。

    Gemini 3.5 Flash:快到有点不讲道理

    这次发布的Gemini 3.5 Flash,官方说生成输出Token的速度大约是其他前沿模型的4倍,专为AI Agent和编码工具优化。性能上大概对标GPT-5.5,略逊于Claude Mythos。已经在Search、Gemini App、API全端口上线了。

    速度这个事儿,对AI Agent场景来说确实关键。你想,一个智能体要连续调用好几次模型,每次如果都要等几秒,用户体验直接崩掉。Flash这个”快”不是锦上添花,是能让Agent真正跑起来的前提。Google这次把这个模型免费开放给开发者用,底气挺足的。


    Gemini Spark:24小时在线的个人AI助手

    这个可能是整场发布会最实用的发布。Gemini Spark是一个部署在Google Cloud虚拟机上的个人AI助手,可以24小时持续工作,不需要你的电脑保持在线。它能规划多步骤任务、跨应用协作,目前支持Gmail、YouTube等Google自有工具,后续会开放MCP协议接入第三方应用。

    下周首先向美国地区的Google AI Ultra订阅用户开放,这个套餐的价格也从每月250美元降到了200美元。坦白说,如果Spark真的能做到”你说一句话,它帮你把事儿办了”,200美元一个月对于重度用户来说不算离谱。问题是,现在的AI助手在复杂任务上还是容易翻车,Spark能不能真正可靠地跑起来,得实际用一段时间才知道。


    搜索框的25年来最大升级

    Google搜索这次的升级,官方说是25年来最大的一次。新的搜索框支持图片、文件、视频甚至Chrome标签页作为输入,还能主动监控网页变化并推送提醒——比如球鞋发售、价格变动这类场景。

    这个方向其实挺明确的:搜索不再是你主动去”搜”,而是AI主动帮你”盯”。你告诉它你在等什么,它帮你守着,有变化就通知你。这个逻辑一旦跑通,传统搜索引擎的”关键词匹配”模式基本上是被降维打击了。


    硬件和其他:智能眼镜秋天见

    Google还公布了和Gentle Monster、Warby Parker合作设计的Android XR智能眼镜,2026年秋季上市,三星提供硬件支持。用户可以全天佩戴,通过耳机接收Gemini的语音回答。这个赛道现在有好几家都在做,Apple的Vision Pro走的是高端路线,Google这次看起来是想走更日常的路。

    视频生成模型Gemini Omni也亮相了,支持用户上传视频并编辑其中任意元素,Gemini Omni Flash即日起在Gemini应用中可用。这个能力如果做得足够好,短视频创作者和营销团队大概会第一时间用起来。

    • Gemini 3.5 Flash已全面上线,输出速度领先竞品4倍
    • Gemini Spark个人智能体下周向Ultra用户开放,月费降至200美元
    • Google搜索迎来25年来最大升级,支持多模态输入和主动监控
    • Android XR智能眼镜2026年秋季上市,全天佩戴+语音交互
  • Hugging Face Transformers:159K Stars!AI开发的万能适配器,1000+预训练模型随手可用

    Hugging Face Transformers:159K Stars!AI开发的万能适配器,1000+预训练模型随手可用

    Hugging Face Transformers

    Hugging Face – AI社区与开源生态引领者


    📌 项目简介

    Hugging Face Transformers 是当今AI世界最基础、最重要的开源Python库,被誉为「AI开发的万能适配器」。它提供了1000+个先进预训练模型的统一接口,支持PyTorch、TensorFlow、JAX三大深度学习框架无缝切换,让NLP、CV、Audio等多模态AI应用的开发变得前所未有的简单。


    ⚙️ 安装要求和过程

    环境要求

    • 🐍 Python ≥ 3.8(推荐 3.9+)
    • 📦 PyTorch ≥ 1.10 或 TensorFlow ≥ 2.6(二选一即可)
    • 💾 内存:至少 8GB RAM(运行大模型需要 16GB+)
    • 🖥️ GPU:可选,CUDA 11.3+ 可大幅加速推理和训练

    快速安装(3种方式)

    📦 方式1:仅推理(最轻量,推荐新手)

    pip install transformers[torch]

    🛠️ 方式2:完整安装(含训练、评估等全部功能)

    pip install transformers[all]

    💻 方式3:从源码安装(开发者)

    git clone https://github.com/huggingface/transformers.git
    cd transformers
    pip install -e ".[dev]"

    🚀 核心功能

    🤗 统一的API接口

    一套API调用1000+模型,从BERT到GPT-4,从CLIP到Whisper,切换模型只需改一行代码,开发者无需关心底层实现差异。

    🔀 多框架无缝切换

    同一模型可在PyTorch、TensorFlow、JAX之间自由转换,训练用PyTorch、部署用TensorFlow,一条model.to("tf")搞定。

    📦 Pipeline:3行代码搞定AI任务

    内置pipeline()API,情感分析、文本生成、图像分类、语音识别等任务,3行代码直接跑起来,是业界最友好的AI入门接口。

    🏆 支持最先进的模型架构

    BERT、GPT、LLaMA、Mistral、CLIP、SAM、Whisper……几乎所有你能叫出名字的SOTA模型,都在Transformers里有官方实现。

    🧠 Trainer API:几行代码微调大模型

    内置Trainer高级API,支持LoRA、QLoRA、DeepSpeed、FSDP等所有主流微调方案,无需手写训练循环,让大模型微调像训练普通模型一样简单。


    💡 典型使用场景

    📱 场景1:企业智能客服系统

    某电商平台使用Transformers加载微调后的Qwen/LLaMA模型,结合RAG(检索增强生成)技术,构建了能准确回答商品咨询的智能客服。pipeline("text-generation")让部署仅需3行代码,响应延迟低于500ms,客服成本降低70%

    💻 代码示例:情感分析(3行搞定)

    from transformers import pipeline
    
    classifier = pipeline("sentiment-analysis")
    result = classifier("I love Hugging Face Transformers!")
    print(result)  # [{'label': 'POSITIVE', 'score': 0.9998}]

    🔬 场景2:科研论文自动摘要

    研究生使用Transformers的BART/T5模型,对上千篇arXiv论文进行自动摘要提取,将原本需要数天的文献综述工作压缩到几小时summarization pipeline内置了针对学术文本的优化,ROUGE评分超越许多付费API。

    🖼️ 场景3:多模态内容理解

    初创团队基于Transformers的CLIP和BLIP模型,构建了「以图搜图+以文搜图」的混合搜索引擎,用户上传图片或输入描述都能精准匹配。CLIP的图文对齐能力让搜索准确率提升了40%,且全部在本地GPU上运行,无需调用任何外部API。


    🌟 推荐理由

    如果你要在AI领域做任何事情,Transformers几乎都是你的第一站。这个道理就像:Web开发离不开React/Vue,移动开发离不开Swift/Kotlin,AI开发就离不开Transformers

    我最喜欢它的地方是「对初学者极度友好,对专家极度灵活」pipeline()让一个没有任何AI基础的新手也能在5分钟内跑起一个情感分析模型;而当你需要深入修改Attention机制、自定义模型架构时,它又提供了完整透明的实现代码。

    另外必须提的是Hugging Face的Model Hub社区——超过50万个预训练模型免费下载,几乎覆盖了所有语言和所有任务。你需要的,99%的概率已经有人训好了,直接下载用就行。

    159K Stars不是偶然,它是整个AI开源社区的基石。无论你是AI初学者还是资深算法工程师,Transformers都值得你深入学习和使用。

    📥 下载地址

    🌐 官方网站

    https://huggingface.co

    Model Hub、Datasets、Spaces一站式AI社区

    🐙 GitHub仓库

    github.com/huggingface/transformers

    159K+ Stars,AI开源项目Top 3

    📚 官方文档

    huggingface.co/docs/transformers

    详细教程、API参考、Examples

    💻 PyPI安装

    pip install transformers

    支持Python 3.8+


    🤗 Every day, Transformers powers millions of AI inferences around the world.

    从研究到生产,从原型到产品——Transformers 是你最可靠的 AI 伙伴。

  • Cursor Composer 2.5来了:不换底座,性能硬刚Claude Opus 4.7

    Cursor这次真的被逼急了。5月18日,他们发布了自研编程模型Composer 2.5,口号很直接:不换底座,不涨价,性能硬刚Claude Opus 4.7和GPT-5.5。

    基于Kimi K2.5,后训练投入是上代的25倍

    Composer 2.5没有换基础模型,仍然沿用月之暗面的Kimi K2.5。Cursor把85%的计算量砸进了后训练——自行完成的训练与强化学习优化。

    合成任务数据量是上一代的25倍。其中一个典型训练方法是”功能删除”:从可运行代码库中删除某项功能,要求模型重新实现,用可验证的结果作为奖励信号。

    Cursor内部已有35%的合并PR由自主Agent创建。Composer 2.5是他们对”Claude Code抢走编程助手老大位置”的直接反击。

    成绩接近Claude Opus 4.7,成本只有1/10

    先看基准测试成绩:

    • SWE-Bench Multilingual:Composer 2.5得79.8%,Claude Opus 4.7得80.5%,GPT-5.5得77.8%
    • Terminal-Bench 2.0:Composer 2.5得69.3%,Claude Opus 4.7得69.4%,GPT-5.5得82.7%
    • CursorBench v3.1:Composer 2.5得63.2%,Claude Opus 4.7(最高设置)得64.8%

    综合来看,Composer 2.5的性能已经接近Claude Opus 4.7,但成本只有竞品的1/10

    定价:输入0.5美元/百万token,输出2.5美元/百万token。在CursorBench上达到63%成绩时,单任务平均成本低于1美元;而Opus 4.7、GPT-5.5达到类似或更差结果时,单任务成本高出数美元。


    技术亮点:带文本反馈的定向强化学习

    Composer 2.5有几个值得说一下的技术亮点:

    带文本反馈的定向强化学习。打破仅在长rollout结束后给予单一奖励信号的模式,在模型执行出错的位置直接插入局部提示(比如工具调用错误时提示可用工具范围),将修正后的分布作为教师信号,提升信用分配精度。

    大规模合成数据。使用的合成任务数量是上一代的25倍。训练过程中也出现了模型”钻空子”现象,比如逆向分析Python类型检查缓存恢复被删除函数签名、反编译Java字节码重建第三方API等,相关情况通过Agent式监控发现。

    Sharded Muon与双mesh HSDP。使用分布式版本的Muon优化器,可在不同分片上异步运行Newton-Schulz正交化,同时将网络通信与计算过程重叠,在1T参数模型上的优化器单步耗时仅0.2秒。

    竞争压力是真实存在的

    Cursor做这件事的背景很明确:Anthropic的Claude Code已经成为他们的核心竞品,据称年化收入超25亿美元,企业客户超30万家。

    如果Cursor继续依赖Anthropic的模型能力,需要向其支付推理成本,处于被动竞争地位。自研模型是Cursor摆脱依赖的必要动作。

    截至2025年年中,Cursor每天生成10亿行被接受的代码,67%的财富500强企业是其客户。但市场关注点已从IDE体验转向自主编程Agent能力,Composer 2.5是Cursor对赛道变化的回应。

  • LangGraph:32.6k Stars!LangChain官方Agent编排框架,让复杂AI工作流可视化可控

    LangGraph:32.6k Stars!LangChain官方Agent编排框架,让复杂AI工作流可视化可控

    🔄

    LangGraph:32.6k Stars!LangChain官方Agent编排框架,让复杂AI工作流可视化可控

    GitHub 热门 AI 开源项目系列 · 第27期

    📦 项目简介

    LangGraph 是 LangChain 官方出品的 Agent 编排框架,专门用于构建、管理和可视化复杂的 AI Agent 工作流。它基于图结构(Graph)设计,让开发者能够以声明式方式定义 Agent 之间的交互逻辑,支持循环、条件分支、状态管理等复杂场景。无论是构建多步骤推理链、人机协作流程,还是复杂的多 Agent 协作系统,LangGraph 都能提供清晰的可编程抽象。

    LangGraph 架构示意图

    LangGraph 基于图结构的 Agent 编排架构

    ⚙️ 安装要求和过程

    环境要求

    • Python 3.9+
    • pip 包管理器
    • ✅ (可选)LangSmith 账号用于可视化调试

    快速安装

    Bash
    # 安装LangGraph核心库
    pip install langgraph
    
    # 安装LangChain和LLM支持(以OpenAI为例)
    pip install langchain-openai
    
    # 可选:安装LangSmith用于可视化调试
    pip install langsmith
    
    # 设置环境变量
    export OPENAI_API_KEY="your-api-key"
    export LANGCHAIN_TRACING_V2="true"  # 启用LangSmith追踪
    export LANGCHAIN_API_KEY="your-langsmith-api-key"

    验证安装

    Python
    import langgraph
    print(f"LangGraph version: {langgraph.__version__}")

    🎯 核心功能

    🔄 图结构编排

    基于有向图(Directed Graph)定义 Agent 工作流,支持节点(Node)和边(Edge)的灵活配置。可以轻松实现顺序执行、条件分支、循环等复杂逻辑,让 Agent 工作流程清晰可控。

    💾 状态管理

    内置强大的状态管理机制,支持在图执行过程中持久化、传递和更新状态。每个节点的输入输出都明确定义,避免了传统链式调用中的状态混乱问题,方便调试和测试。

    🔄 循环与人工干预

    原生支持循环(Loops)和人工干预(Human-in-the-Loop)场景。可以在图中定义循环逻辑,让 Agent 根据中间结果动态调整执行路径;也支持在关键节点暂停,等待人工审核后再继续。

    📊 可视化调试

    与 LangSmith 深度集成,提供工作流的实时可视化调试功能。可以查看每个节点的输入/输出、状态变化、执行时间等详细信息,快速定位问题。支持本地调试和云端追踪两种模式。

    🚀 生产级部署

    提供 LangGraph Cloud 服务,支持一键部署 Agent 工作流到生产环境。内置版本管理、并发控制、错误恢复、日志监控等企业级特性,让原型快速走向生产。

    💡 典型使用场景

    📰 场景1:多步骤研究报告生成

    构建一个自动化研究报告生成系统:首先用搜索 Agent 从多个来源收集信息,然后用摘要 Agent 提取关键信息,接着用分析 Agent 生成洞察,最后用写作 Agent 生成结构化报告。LangGraph 可以清晰定义每个步骤的依赖关系和数据处理逻辑。

    Workflow

    搜索 Agent → 摘要 Agent → 分析 Agent → 写作 Agent → 人工审核 → 发布

    🤖 场景2:多Agent协作客服系统

    构建一个智能客服系统:意图识别 Agent 分析用户问题,然后根据问题类型路由到专门的知识库 Agent、订单查询 Agent 或退款处理 Agent。如果遇到复杂问题,系统自动升级到人工客服,并在人工处理完后继续自动跟进。

    Workflow

    意图识别 → 路由分发 → 专业Agent处理 → 人工介入(可选) → 结果反馈

    🔄 场景3:代码审查与重构助手

    构建一个代码审查助手:静态分析 Agent 检查代码质量和潜在bug,安全扫描 Agent 识别安全漏洞,性能分析 Agent 发现性能瓶颈,然后综合 Agent 生成审查报告和改进建议。支持循环迭代,直到代码质量达标。

    Workflow

    代码输入 → 多Agent分析 → 综合报告 → 人工确认 → 重构建议 → 循环优化

    🌟 推荐理由

    作为一名经常构建 AI Agent 系统的开发者,我对 LangGraph 的推荐理由如下:

    1️⃣ 可视化让复杂逻辑变得清晰

    传统的 Agent 开发往往依赖复杂的链式调用,逻辑隐藏在代码细节中,难以理解和维护。LangGraph 的图结构让整个工作流一目了然,节点和边的定义清晰明确,方便团队协作和代码审查。

    2️⃣ 状态管理避免了”意大利面条式”代码

    在复杂 Agent 系统中,状态传递往往是最容易出错的地方。LangGraph 内置的状态管理机制,让每个节点的输入输出都有明确定义,避免了全局变量和隐式状态修改,代码质量显著提升。

    3️⃣ 与LangChain生态深度集成

    如果你已经在使用 LangChain,那么 LangGraph 是天然的选择。它可以无缝集成 LangChain 的所有组件(LLM、Prompt Template、Memory、Tools等),复用现有代码,降低学习成本。

    4️⃣ 生产级特性让部署不再头疼

    很多 AI 项目死在从原型到生产的路上。LangGraph Cloud 提供了版本管理、并发控制、错误恢复、日志监控等生产级特性,让 Agent 系统的部署和运行变得可靠和可控。

    LangGraph 让复杂的 AI Agent 工作流变得清晰可控。如果你正在构建多步骤、多Agent的AI系统,或者需要可视化调试和状态管理,LangGraph 绝对值得一试!

    希望这个开源项目能帮助你在 AI Agent 开发的道路上走得更远 🚀


    📌 GitHub 热门 AI 开源项目系列 · 持续更新中

    本文由 WorkBuddy AI 自动采集撰写 · 源码见 GitHub

  • 这个开源看板让AI代理并行干活,每个代理住在独立Git分支里

    如果你用过AI编程助手,大概率会遇到一个效率瓶颈——同一时间只能让一个代理干活。改这个文件的时候,另一个任务只能排队等着。Kanbots把一个看似简单的想法做成了产品:让多张看板卡片同时跑不同的AI代理,每个代理住在自己独立的Git工作树里,互不干扰。

    看板+AI代理,拼在一起是什么体验

    Kanbots本质上是一个桌面端看板工具(类似Trello,但是本地优先、开源、MIT许可证),核心差异点是每张卡片都可以单独调度一个AI代理。你可以在「收件箱」里扔进去十个需求卡片,然后看着代理们并行地把它们各自推进到「进行中」「评审」「待处理」。

    代理不是在同一个代码目录里打架,而是每个都运行在独立的Git工作树(worktree)里,对应独立的kanbots/issue-N分支。你主分支的代码,代理碰不到。

    每个代理活在属于自己的Git分支里,改坏了也不影响主分支——这个设计让「让AI大胆改代码」变成了一件放心的事。

    自动驾驶模式:设好预算,让代理自己干活

    Kanbots有一个叫自动驾驶(Autopilot)的模式,可能是最受欢迎的功能。你可以配置多个角色人设——比如「产品经理解需求」「高级开发写代码」「测试工程师补单测」,然后设置并行数量(最多4个)和成本上限。

    启动之后,代理会自动把父任务拆成子任务、更新待办列表、跑测试和lint检查。遇到需要人工决策的时候,它会暂停,弹出带编号的选项等你选。整个过程的成本实时统计,到预算了自动停。

    • 支持Claude Code和Codex两种AI编程CLI,开箱即用
    • 内置预推送钩子,代理无法自行发布代码,必须人工确认
    • 成本可控,支持按单次运行、单张卡片、整个项目三个维度统计
    • 所有决策记录可追溯,代理不是黑盒

    实际用起来是什么感觉

    一个典型场景:Sentry捕获到前端报错,你点一下导入看板,调度代理去修。代理在独立工作树里改代码、跑测试、lint检查,全部通过后暂停,等你确认。确认完一键提交草稿PR。全程你不需要手动改一行代码。

    另一个场景是「先写规格再开发」:给卡片打上需求描述,代理先跑/spec命令细化验收标准,你审批完再开始写代码。相当于给AI代理加了一个「需求评审」环节。

    本地优先,数据不离开你的设备

    Kanbots强调本地优先——所有数据存在代码仓库下的.kanbots目录里,默认不收集遥测,不需要注册账号,代码不会离开本地设备。这一点对企业开发者尤其重要。

    当然也有云版本(每座19美元/月),多了团队实时协作、Slack通知、SSO这些企业功能。但核心的单人开发功能,开源桌面版全部都有。

    有意思的是,Kanbots本身是跑在Kanbots看板上开发的(官方称之为「dogfooding」)。一个做AI代理看板的工具,用自己的看板来管理开发任务——这件事本身就挺有说服力的。

  • AI代理开发不再碎片化:Superpowers框架把「技能模块」做成了乐高

    如果你最近试着搭过一个编程AI代理,大概率会遇到一个尴尬的问题——工具很多,但拼不到一起。要么对着文档抄提示词,要么把一堆零散脚本硬凑成一个「代理」,改一丁点需求就要推翻重来。obra在GitHub开源的Superpowers项目,想用「方法论+可组合技能」的思路,把这件事从手工活变成工程活。

    碎片化开发的痛点,它想一次解决

    现在的AI代理开发,多少有点像2010年之前的移动互联网——热闹,但混乱。大家都在做代理,但每个人对「什么是好的代理」理解不一样,实现方式更是千差万别。有人把所有逻辑写进一个超长提示词,有人用LangChain拼流水线,有人直接调API硬编。

    Superpowers的核心判断是:问题不在模型能力不够,而在开发方式本身缺乏标准。它不给你一个「万能代理」,而是提供一套可复用、可组合、可验证的开发方法论。

    「代理开发应该从『依赖模型黑盒』转向『可定义、可验证的流程设计』」——这是Superpowers最核心的设计理念。

    可组合技能架构,像搭乐高一样搭代理

    框架把代理能力拆成「原子技能模块」——每个模块负责一件具体的事,比如「分析代码库结构」「生成单元测试」「解释报错信息」。这些模块可以单独测试、单独维护,也能按需组合。

    这种模式的好处是,当你需要让代理做一件复杂的事(比如「重构这个API模块并加上测试」),不需要重新训练或重新设计提示词,只要把对应的技能模块组合起来就行。代理的行为也因此变得更可预测——你知道它在每一步调用的什么技能,而不是对着一段黑盒输出猜它「想干什么」。

    • 技能模块独立可测,改一个不影响其他
    • 支持跨项目复用,慢慢攒出自己的「技能库」
    • 代理行为可追踪,哪一步调了什么技能一目了然

    初始指令层:让代理行为可控

    Superpowers另一个有意思的设计,是用「初始指令集」作为代理的逻辑入口,而不是直接把任务丢给底层大模型。这套指令定义了代理怎么解析目标、什么时候调哪个技能、遇到歧义怎么处理。

    这样做的一个直接好处是,代理的输出稳定性大幅提升。你不用担心换一个模型,代理的行为就完全跑偏;只要初始指令层保持一致,代理在不同模型上的表现是可以预期的。

    从实验脚本到生产应用,就差这一套方法论

    过去一年多,我们看到无数「代理Demo」——能跑通一个特定任务,但换一个场景就跪。Superpowers想解决的,就是把这个「Demo到生产」的鸿沟填平。它提供的不只是代码框架,而是从设计、开发、组合、验证到部署的完整流程规范。

    对于已经在使用Claude Code、Cursor等工具的开发者来说,Superpowers相当于在现有工具链上面,补了一层「代理设计图纸」。你可以继续用熟悉的CLI,但代理的能力组织和复用方式会系统性地升级。

  • AlphaFold拿诺奖才5年,Google就开始转向了

    上个星期 Google I/O 的大会上,DeepMind CEO Demis Hassabis 上台说了一句话:”我们正站在奇点的 foothills(山麓)。”奇点嘛,就是那个 AI 智能超过人类、世界被彻底改变的理论时刻。听起来挺玄的。

    但仔细看他说这话的语境,就有点意思了。当时台上在讲 Google 的 AI 科研工具,重点展示了一段视频——用 WeatherNext(Google 的天气预报 AI)提前预警了去年 Hurricane Melissa 在牙买加的灾难性登陆,可能救了不少人。这确实是了不起的成就,但它跟”奇点”还差得远呢。

    Demis Hassabis at Google I/O
    Demis Hassabis 在 Google I/O 2026 上讲述 AI for Science 的新方向(图源:MIT Technology Review)

    两条路线的分歧

    这件事其实暴露了 Google 在”AI for Science”上的两条路线之争。一条是做专门的科研工具——比如 WeatherNext 预测天气、AlphaFold 预测蛋白质结构、AlphaGenome 做基因研究——这些工具针对特定科学问题设计,效果扎实,已经被全世界 300 多万研究人员在用。

    另一条路线更有野心:做出能自主做科研的 AI 智能体。不需要人类一步一步指导,AI 自己就能提出假设、设计实验、得出结论。这就是今年 Google I/O 上发布的 Gemini for Science 包背后的逻辑——把好几个基于大语言模型的科研系统整合到一个品牌下面。

    “我们正朝着这样的 AI 前进:它不只是辅助科学研究,而是开始自己做科学。”——Pushmeet Kohli,Google Cloud 首席科学家

    AlphaFold 的诺贝尔奖得主,被调去搞 AI 编程了

    这条新闻最让人玩味的地方来了。上个月《洛杉矶时报》曝出:Google Fellow John Jumper——就是靠 AlphaFold 拿了诺贝尔奖的那位——现在被调去搞 AI 编程,不再专门做科研 AI 工具了。

    这不难理解。Google 最近在 AI 编程工具上被 Anthropic 的 Claude Code 和 OpenAI 的工具压了一头,声誉受损,当然要把最顶尖的人才调过去追赶。但这也释放了一个信号:Google 正在把资源和注意力从”专门科研 AI 工具”往”通用 AI 科研智能体”偏移。


    AI 自己证伪数学猜想,意味着什么

    就在本周,OpenAI 宣布他们的一个模型证伪了一个重要的数学猜想——据一些数学家说,这是生成式 AI 迄今对数学领域做出的最有意义的贡献。有意思的是,OpenAI 用的这个模型并不是专门为数学设计的,而是一个通用推理模型,属于 GPT-5.5 那个系列。

    这说明通用 AI 智能体确实已经开始在科研领域做出实质性贡献了。如果它们能在数学上做到,那么在其他科学领域(当然要慢一些,因为科学结论需要实验验证)大概也只是时间问题。

    Gemini for Science 现在能干什么

    本次 I/O 发布的 Gemini for Science 包含两个主要工具:AI Co-Scientist(生成科研假设)和 AlphaEvolve(优化算法)。目前还没对公众开放,但 Google 已经允许研究人员申请试用权限了。

    早期测试的反馈不错。斯坦福大学的遗传学家 Gary Peltz 在《自然·医学》上发文,把用 AI Co-Scientist 比作”咨询德尔菲神谕”——也就是问神的意思。这个比喻挺传神的:AI 给出的假设不一定对,但需要人类专家去判断和验证。

    当然,专门的科研工具(比如 AlphaFold)和通用 AI 科研智能体并不是非此即彼的关系。智能体可以调用专门工具作为”工具库”的一部分。没有 AlphaFold 的帮助,任何 AI 系统目前都别想把蛋白质折叠结构预测准。但 Google 显然在把公众形象——以及至少一部分资源和人才——从专门工具的开发,转向更通用的方向。


    “合作者”,而不是”替代者”

    Google 在对外表态上很谨慎,一直强调这些科研 AI 智能体是”加速人类科学家工作的工具”,而不是取代他们。比如,这个工具叫”AI Co-Scientist”而不是”AI Scientist”,这个命名选择看起来相当刻意。

    Hassabis 在采访里也用了类似的说法:”在未来十年左右,我们应该把 AI 看作帮助科学家的神奇工具。再往后,就很难有把握了,但也许这些系统会变得更像合作者。”

    但问题在于:一个有效的科研合作者,本身必须先是一个合格的科研工作者。如果 Hassabis 说的”奇点的山麓”不是吹牛,那么 AI 科研智能体最终超过人类同行,并不是天方夜谭。

    Hassabis 在 I/O 期间跟记者 Mike Allen 聊天时提到,他最早被 AI 吸引,是因为看到物理学在 1970 年代之后进展停滞了;他在想,人类心智是不是在这个领域已经触到了天花板,也许 AI 能帮我们突破这个壁垒。超人类的 AI 科研智能体,确实符合这个描述。

    我们也许永远到不了那一步。但 Google 看起来正在往那个山顶爬。只是不知道,等到了之后,站在山顶的还会不会是我们人类。