标签: MCP

  • OpenAI Agents SDK:OpenAI官方多智能体框架,27K+ Stars让Agentic AI开发变得简单

    OpenAI Agents SDK:OpenAI官方多智能体框架,27K+ Stars让Agentic AI开发变得简单

    OpenAI Agents SDK 架构图

    OpenAI Agents SDK 多智能体编排架构示意图(图片来源:OpenAI 官方文档)

    项目简介

    OpenAI Agents SDK 是 OpenAI 官方出品的轻量级、强大的多智能体工作流编排框架,2025年3月开源,至今已获得 27,470+ Stars 和 4,227 Forks。一句话概括:让你用极简的 Python 代码,构建生产级的多智能体 AI 应用

    与 LangChain、AutoGen 等第三方框架不同,Agents SDK 是 OpenAI 官方原生维护,与 OpenAI API 深度集成,同时支持 100+ 其他 LLM(通过 LiteLLM),真正做到了 provider-agnostic(提供商无关)。

    🌟 核心定位:不是另一个 AI 框架,而是 OpenAI 对「如何构建 Agentic AI 应用」的官方最佳实践。如果你在用 GPT/Claude 构建智能体应用,这是目前最权威的参考实现。

    安装要求和过程

    环境要求

    • Python:3.10 及以上版本
    • 依赖:Pydantic v2、httpx、mcp-python-sdk
    • API Key:OpenAI API Key(或兼容的其它 LLM)

    快速安装

    # 使用 pip(推荐)
    pip install openai-agents
    
    # 使用 uv(更快)
    uv add openai-agents
    
    # 语音功能支持(可选)
    pip install 'openai-agents[voice]'
    
    # Redis 会话支持(可选)
    pip install 'openai-agents[redis]'
    

    最小可运行示例

    import os
    from agents import Agent, Runner
    
    # 设置 API Key(支持任何兼容 OpenAI API 的服务)
    os.environ["OPENAI_API_KEY"] = "your-api-key"
    
    agent = Agent(
        name="Assistant",
        instructions="你是一个有帮助的助手。",
    )
    
    result = Runner.run_sync(agent, "用一句话解释什么是 MCP?")
    print(result.final_output)
    

    核心功能

    🤖 1. Agents — 智能体定义

    通过声明式 API 定义智能体:配置指令(instructions)、工具(tools)、安全护栏(guardrails)和交接策略(handoffs)。每个 Agent 是一个独立的 LLM 调用上下文。

    🔄 2. Handoffs — 智能体交接

    一个智能体可以将对话「交接」给另一个智能体,实现专业分工。例如: triage Agent → 路由到 billing Agent / technical Agent,是构建多智能体系统的核心机制。

    🛡️ 3. Guardrails — 输入/输出安全护栏

    可配置的安全检查,在 Agent 执行前后验证输入和输出。支持自定义 guardrail 函数,实现内容审核、敏感信息过滤、输出格式校验等。

    🔧 4. Tools + MCP — 工具与协议扩展

    支持函数工具(function tools)、MCP 服务器工具、托管工具(web search / file search / computer use)。MCP 协议原生支持,可接入 1000+ 工具生态。

    📊 5. Tracing — 内置可观测性

    所有 Agent 运行自动记录追踪信息,可在 OpenAI Traces Dashboard 查看、调试和优化工作流。无需额外配置,开箱即用。

    📦 6. Sandbox Agents — 容器化工作空间

    v0.14.0 新增功能。Agent 可以在隔离的容器环境中执行真实工作(读写文件、运行命令、应用补丁),支持长时间跨会话的任务。可用于代码审查、自动修复等场景。

    🎙️ 7. Realtime Agents — 语音智能体

    基于 gpt-realtime-2 模型构建语音智能体,支持实时语音对话,完整集成 Agent 所有功能(工具调用、handoffs、guardrails)。可用于构建 AI 客服、语音助手等。

    💬 8. Sessions — 会话历史管理

    自动管理跨多次运行的对话历史,开发者无需手动维护上下文。支持 Redis 持久化,适合生产环境。

    典型使用场景

    场景一:客户服务多智能体系统

    构建一个客服系统,用户消息首先进入 Triage Agent,根据问题类型自动交接给:

    • Billing Agent:处理账单、退款、付费问题
    • Technical Agent:处理技术故障、错误排查
    • Escalation Agent:复杂问题升级人工处理(Human-in-the-loop)

    每个专业 Agent 有自己的指令、工具和知识库,Handoffs 实现无缝切换。Guardrails 确保用户输入和 Agent 输出符合安全规范。

    场景二:AI 编程助手(代码审查+自动修复)

    利用 Sandbox Agents 在隔离环境中运行 AI 编程助手:

    • Agent 克隆代码仓库到沙箱
    • 阅读代码、分析 Issue
    • 生成修复方案并执行测试
    • 自动提交 PR

    整个过程在沙箱中完成,不影响生产环境。支持跨长时间任务(分钟级到小时级)。

    场景三:语音 AI 助手(Realtime Agent)

    基于 Realtime Agents 构建语音助手:

    • 用户通过语音提问
    • gpt-realtime-2 实时理解并响应
    • Agent 调用工具(查天气、搜信息、控制智能家居)
    • 支持中断、插话、多轮对话

    可用于 AI 客服热线、语音笔记助手、语言学习陪练等场景。

    推荐理由

    作为一个深度使用过 LangChain、AutoGen、CrewAI 等框架的开发者,OpenAI Agents SDK 是目前我最推荐的入门和生产级多智能体框架,原因如下:

    1. 官方背书,长期维护有保障:由 OpenAI 官方团队维护,与 OpenAI API 深度集成,未来能力(如 Realtime API、Computer Use)会第一时间支持。不用担心框架突然停更。
    2. 设计极简,学习曲线平缓:核心概念只有 Agents / Handoffs / Tools / Guardrails / Tracing 五个,API 设计直观。相比 LangChain 的复杂抽象,Agents SDK 让你专注于业务逻辑。
    3. Provider-agnostic,不绑定 OpenAI:虽然由 OpenAI 维护,但通过 LiteLLM 支持 100+ LLM(Anthropic / Gemini / DeepSeek / 本地 Ollama 等)。你可以在开发时用 GPT-4o,生产时切换到更便宜的模型。
    4. 内置 Tracing,调试不再抓瞎:所有 Agent 运行自动记录到 OpenAI Platform,可以查看每次 LLM 调用、工具执行、handoff 传递的完整链路。这是其他框架需要自己搭建的可观测性系统。
    5. 生产级特性齐全:Guardrails(安全护栏)、Human-in-the-loop(人工介入)、Sessions(会话管理)、沙箱隔离,这些都是生产环境必需但很多框架忽视的特性。

    ⚠️ 注意事项:Agents SDK 是 Python-first 框架,如果你需要 JS/TS 版本,可以查看 openai-agents-js。另外,Tracing 功能默认将数据传输到 OpenAI Platform,如数据隐私有要求,可以配置自定义 tracing processor。

    项目数据一览

    指标 数据
    GitHub Stars 27,470+ ⭐
    Forks 4,227
    主要功能 多智能体编排、Handoffs、Guardrails、Tracing、MCP、Sandbox Agents、Realtime
    编程语言 Python(也支持 JS/TS)
    开源许可 MIT License
    维护方 OpenAI 官方
    创建时间 2025年3月11日
    最后更新 2026年6月27日(非常活跃 🔥)

    下载地址

    🚀 OpenAI Agents SDK 让构建生产级多智能体应用变得简单而强大。如果你正在做 AI Agent 项目,这应该是你的首选框架。

  • Voicebox:开源AI语音工作室,本地替代ElevenLabs+WisprFlow,34K+Stars让AI开口说话

    Voicebox:开源AI语音工作室,本地替代ElevenLabs+WisprFlow,34K+Stars让AI开口说话

    🎙️ Voicebox:开源 AI 语音工作室

    免费替代 ElevenLabs + WisprFlow 的全栈 AI 语音解决方案,34K+ Stars,MIT 许可

    34K+
    GitHub Stars
    7种
    TTS 引擎
    23
    支持语言
    500+
    开发者
    关注者
    MIT
    开源许可

    📌 项目简介

    Voicebox 是一个开源的 AI 语音工作室,由独立开发者 jamiepine 打造,旨在提供完全本地运行的 AI 语音解决方案。它将”语音生成(替代 ElevenLabs)”和”语音输入(替代 WisprFlow)”二合一,所有模型和数据完全在本地运行,无需上传云端,是隐私优先的 AI 语音工具首选。

    项目基于 Tauri (Rust) 桌面端 + React/TypeScript 前端 + FastAPI Python 后端架构,支持 macOS、Windows 和 Docker 部署,内置 7 种 TTS 引擎、Whisper STT、本地 Qwen3 LLM,并原生支持 MCP 协议,让 AI 智能体也能”开口说话”。

    ⚙️ 安装要求和过程

    环境要求

    • macOS:Apple Silicon (M1+) 或 Intel Mac,推荐 16GB 内存
    • Windows:Windows 10+,支持 CUDA GPU 加速(NVIDIA)或 DirectML(任意 GPU)
    • Linux:从源码构建,支持 CUDA/ROCm GPU 加速
    • 通用:Python 3.11+,Rust(开发构建),Bun (JS 运行时)

    快速安装(预编译包)

    # macOS (Apple Silicon)
    curl -L https://voicebox.sh/download/mac-arm -o Voicebox.dmg

    # macOS (Intel)
    curl -L https://voicebox.sh/download/mac-intel -o Voicebox.dmg

    # Windows
    # 下载 MSI:https://voicebox.sh/download/windows

    # Docker 一键启动
    git clone https://github.com/jamiepine/voicebox.git
    cd voicebox
    docker compose up

    从源码开发构建

    # 克隆仓库
    git clone https://github.com/jamiepine/voicebox.git
    cd voicebox

    # 安装 just 命令工具(任务运行器)
    brew install just # macOS
    # 或 cargo install just

    # 一键安装依赖并启动开发服务器
    just setup
    just dev

    # 构建生产版本
    just build # CPU 版本
    just build-local # Windows + CUDA 版本

    🌟 核心功能

    🎤 7 种 TTS 引擎,覆盖全场景

    Voicebox 集成了 7 种开源 TTS 引擎,从超轻量的 Kokoro (82M) 到高质量的 HumeAI TADA (3B),满足不同场景需求:

    引擎 语言数 模型大小 核心优势
    Qwen3-TTS 10 0.6B/1.7B 高质量多语言克隆,支持发音指令
    Chatterbox Multilingual 23 ~1GB 语言覆盖最广,支持阿拉伯语/芬兰语等
    Chatterbox Turbo 英语 350M 超快速度,支持 [laugh]/[sigh] 表情标签
    Kokoro 8 82M 极小模型,CPU 实时 10x+ 速度
    LuxTTS 英语 ~1GB 48kHz 输出,CPU 150x 实时速度
    HumeAI TADA 10 1B/3B 语音语言模型,支持 700s+ 连贯音频
    Qwen CustomVoice 10 自然语言控制发音,无需参考音频

    🗣️ 语音克隆 + 无限长度生成

    支持从几秒音频进行零样本语音克隆,同时内置 Kokoro 和 Qwen CustomVoice 的 50+ 精选预设语音。独创”无限长度生成”机制——自动按句子拆分文本,分块生成后交叉淡入淡出拼接,最大支持 50,000 字符的文本输入,彻底打破 TTS 长度限制。

    🎧 全局语音输入(Dictation)

    支持全局热键语音输入,macOS 支持自动粘贴到当前文本框(按住说话/切换模式)。内置 Whisper STT,支持可选 LLM 优化去除口癖、停顿,让语音输入更流畅自然。相当于开源版的 WisprFlow!

    🤖 AI 智能体语音输出(MCP 支持)

    内置本地 MCP 服务器,支持 Claude Code、Cursor、Cline 等 AI 编程助手通过 voicebox.speak 工具调用,让 AI 智能体用克隆的语音”开口说话”。支持为不同智能体绑定不同语音,实现个性化语音输出。

    # Claude Code 一键配置 MCP
    claude mcp add voicebox –transport http –url http://127.0.0.1:17493/mcp –header “X-Voicebox-Client-Id: claude-code”

    🎬 语音故事编辑器 + 音频后处理

    内置多轨道时间线编辑器,支持对话、播客、叙事内容制作,支持拖拽、音频裁剪、同步播放。基于 Spotify pedalboard 库提供 8 种音频后处理效果(音调偏移、混响、延迟、合唱、压缩等),并内置”机器人”、”电台”、”回声室”、”低音”4 种预设效果链。

    💡 典型使用场景

    场景一:AI 编程助手语音通知

    长时间运行的编程任务(如模型训练、测试套件)完成后,通过 Voicebox MCP 集成,让 Claude Code 或 Cursor 用你喜欢的语音播报结果:”测试全部通过,共 42 个用例,耗时 3 分 12 秒”。不用盯着屏幕,声音告诉你进度!

    场景二:多语言内容创作

    使用 Chatterbox Multilingual 引擎(支持 23 种语言),配合语音克隆功能,内容创作者可以用自己(或任何)的声音生成多语言版本的视频配音、播客内容。Qwen3-TTS 还支持输入发音指令(如”慢点说”、”小声说”),让生成语音更自然。

    场景三:本地隐私优先的语音输入替代

    替代 WisprFlow 等云端语音输入工具,所有语音识别和转录均在本地运行(Whisper STT),语音数据不上传任何云端服务器。对隐私敏感的用户、企业内网环境,或者需要离线使用的场景,Voicebox 是最佳选择。

    💬 推荐理由

    为什么推荐 Voicebox?

    1. 隐私优先,本地全栈。模型、语音数据、录音内容完全本地存储,不依赖任何云服务。对于关注数据隐私的开发者来说,这一点至关重要。

    2. 二合一解决方案。一个工具同时替代 ElevenLabs(语音生成)和 WisprFlow(语音输入),不需要订阅两个服务,省心省钱。

    3. 引擎覆盖全面。7 种 TTS 引擎从 82M 到 3B 参数,从 CPU 到 GPU 加速,从英语到 23 种语言,几乎覆盖了所有使用场景。

    4. MCP 原生支持。AI 智能体生态正在爆发,Voicebox 率先支持 MCP 协议,让 AI 智能体具备语音输出能力,这在开源项目中非常前瞻。

    5. 活跃开发中。485 个开放 Issues 说明社区非常活跃,项目在快速迭代。MIT 许可允许自由修改和分发,适合二次开发。

    个人使用感受:Voicebox 的 MCP 集成体验非常顺滑,配置一次后,Claude Code 就能直接调用语音输出。用它来做长时间编程任务的语音通知,比盯着终端看进度条优雅太多。唯一的小遗憾是 Linux 目前还没有预编译包,需要自己从源码构建。

    📥 下载地址

    项目信息:
    ⭐ GitHub Stars: 34,192
    📜 开源许可: MIT License
    💻 技术栈: Tauri (Rust) + React/TypeScript + FastAPI (Python)
    🌐 官网: voicebox.sh
    📦 Docker: docker compose up
    最近更新: 2026 年 6 月

  • deer-flow:ByteDance 开源超级智能体框架,74K+ Stars 让 AI 处理小时级复杂任务

    deer-flow:ByteDance 开源超级智能体框架,74K+ Stars 让 AI 处理小时级复杂任务

    2026年2月,ByteDance(科技公司)开源了其内部打磨多时的超级智能体框架 deer-flow 2.0,发布当天即登顶 GitHub Trending 榜首,目前已收获 74,000+ Stars。这不仅仅是一个”AI聊天机器人”,而是一个能够处理分钟级到小时级复杂任务的长周期智能体框架——从深度研究、代码编写,到内容创作、幻灯片制作,deer-flow 都能自主规划并执行。

    🦌 项目简介

    deer-flow(鹿流)是 ByteDance 开源的长周期超级智能体框架(Super Agent Harness),由初代 Deep Research 框架完全重构而来。它支持研究、编码、内容创作等复杂任务,通过沙箱隔离、持久化记忆、工具调用、子智能体协作等能力,处理从几分钟到数小时的各类任务。2.0 版本为完全重构版本,架构更清晰、扩展性更强。

    deer-flow GitHub OpenGraph 图片
    deer-flow 2.0 – ByteDance 开源超级智能体框架

    🛠 安装要求和过程

    环境要求

    • Python:3.12+(推荐使用 uv 管理依赖)
    • Node.js:22+(前端界面需要)
    • pnpm:前端包管理工具
    • Docker:推荐部署方式(可选,用于沙箱隔离)
    • 操作系统:macOS / Linux / Windows(WSL2)

    快速安装(3分钟上手)

    # 1. 克隆仓库
    git clone https://github.com/bytedance/deer-flow.git
    cd deer-flow
    
    # 2. 运行交互式配置向导(2分钟完成,生成 config.yaml 和 .env)
    make setup
    
    # 3. 安装依赖(本地开发模式)
    make install
    
    # 4. 启动本地服务
    make dev
    # 访问地址:http://localhost:2026
    

    配置向导会引导你设置 LLM 提供商(支持 OpenAI / DeepSeek / MiniMax / Qwen / 本地 vLLM 等)、网页搜索提供商(Tavily / Brave / Exa 等),无需手动编辑配置文件。配置完成后可随时运行 make doctor 验证配置是否正确。

    Docker 部署(推荐生产环境)

    # 开发模式(支持热重载)
    make docker-init    # 仅首次或沙箱镜像更新时运行
    make docker-start   # 启动服务
    
    # 生产模式
    make up             # 构建镜像并启动所有生产服务
    make down            # 停止并删除容器
    

    🎯 核心功能

    • 🧠 子智能体调度:主智能体可按需创建子智能体,每个子智能体拥有独立上下文、工具和终止条件;子智能体支持并行执行,执行结果结构化返回,主智能体最终汇总输出。长任务可拆分为多个子步骤,支持分钟到小时级别的复杂任务处理。
    • 📦 沙箱与文件系统隔离:每个任务拥有独立执行环境,支持文件读写、编辑、图像查看;支持多种沙箱模式:本地执行、Docker 隔离容器执行、Kubernetes Pod 执行。沙箱内文件路径 /mnt/user-data/ 下包含 uploads/(用户上传文件)、workspace/(智能体工作目录)、outputs/(最终交付物)。
    • 🧩 技能与工具扩展:内置研究、报告生成、幻灯片制作、网页生成、图像/视频生成等开箱即用技能;支持自定义技能、MCP 服务器扩展、Python 函数自定义工具;技能按需加载,避免上下文窗口过度占用;支持通过 /skill-name 前缀手动激活单轮技能。
    • 💾 长期记忆:跨会话持久化存储用户偏好、技术栈、常用工作流等信息;自动跳过重复记忆条目,避免记忆无限膨胀;记忆本地存储,用户完全可控。让智能体”记得”你之前的项目背景和编码习惯。
    • 🔌 IM 渠道集成:支持接入 Telegram、Slack、飞书、企业微信、钉钉、微信等 IM 渠道,无需公网 IP 即可接收任务。在聊天工具中直接使用 /new/status/models/memory 等命令管理对话和智能体。
    • 📊 可观测性:内置 LangSmith、Langfuse 可观测性集成,支持全链路 LLM 调用、智能体运行、工具执行追踪。生产和调试时都能清晰了解智能体的决策过程。

    💡 典型使用场景

    场景一:深度研究报告自动生成

    输入”研究 Transformer 架构的演进历程,输出一份 5000 字的技术报告,包含关键论文引用和架构对比图”,deer-flow 会自动规划研究步骤:搜索相关资料 → 阅读并提取关键信息 → 对比不同架构差异 → 生成结构化报告 → 输出为 PDF/Markdown。整个过程无需人工干预,耗时约 10-30 分钟。

    场景二:代码项目从零搭建

    输入”帮我搭建一个基于 FastAPI + Redis 的短链接服务,包含单元测试和 Docker 部署配置”,deer-flow 会创建子智能体分别处理:API 路由设计、Redis 缓存逻辑、测试用例编写、Dockerfile 生成。最终在 outputs/ 目录下产出完整项目代码,可直接运行。

    场景三:内容创作与多语言本地化

    deer-flow 内置内容创作技能,支持文章撰写、幻灯片制作、网页生成。结合 IM 渠道集成,可以将已有视频/文章自动翻译为多种语言并生成配音版本,实现内容的多语言分发。适合自媒体运营者和内容创作者使用。

    🌟 推荐理由

    deer-flow 2.0 是目前开源超级智能体框架中最接近”生产可用”的项目之一。与 LangChain、CrewAI 等框架相比,deer-flow 的最大特点是长周期任务处理能力——通过子智能体调度和上下文管理,它可以处理耗时数小时的复杂任务而不超出上下文窗口。这是很多同类框架做不到的。

    几个让我印象深刻的细节:

  • 上下文工程做得很到位:子智能体上下文隔离 + 自动摘要已完成子任务 + 中间结果卸载到文件系统,这套组合拳让长任务不 OOM。如果你用过其他框架处理长任务,就知道这个有多重要。
  • 沙箱设计务实:支持本地 / Docker / K8s 三种沙箱模式,开发时可以用本地模式快速迭代,生产时切到 Docker 隔离。不用一上来就搞复杂的 K8s 部署。
  • ByteDance 背书:这不是个人业余项目,是 ByteDance 内部打磨后开源的框架,2.0 版本完全重构,代码质量和文档都相当不错。74K+ stars 和 GitHub Trending 第一也证明了社区认可度。
  • IM 渠道集成很实用:无需公网 IP 就能通过飞书/企微接收任务,对国内用户非常友好。想象一下在企业微信群里 @ 一下你的 AI 智能体,它就去后台帮你跑一个深度研究任务,完成后通知你——这个体验很丝滑。

当然也有一些注意事项:项目默认设计为本地可信环境部署,不可信环境需要额外配置认证网关;生产环境扩容需要通过提升单 worker 资源配置或拆分数据库、沙箱到独立节点实现,不能直接增加 worker 数量。部署前建议仔细阅读安全文档。

📦 下载地址

  • GitHubhttps://github.com/bytedance/deer-flow(74K+ Stars,2.3K+ Commits)
  • 官方网站https://deerflow.tech(在线体验 + 完整文档)
  • 文档中心https://deerflow.tech/docs(支持英文、中文、日文、法文、俄文)
  • 在线体验https://deerflow.tech/playground(无需安装,直接试用)
  • License:MIT License(商业友好,可自由修改和分发)
  • 支持的 LLM:OpenAI / DeepSeek / MiniMax / Qwen / 本地 vLLM / 豆包 Doubao(推荐 Seed-2.0-Code)等
  • 如果你正在寻找一个能处理复杂长任务的 AI 智能体框架,或者想了解 ByteDance 级别的工程团队是如何设计超级智能体的,deer-flow 绝对值得深入研究。74K+ 社区星标不会骗你。

  • headroom:AI智能体上下文压缩层,减少60-95% Token消耗,本周GitHub新增近1.5万Stars

    headroom:AI智能体上下文压缩层,减少60-95% Token消耗,本周GitHub新增近1.5万Stars

    ⚡ headroom:AI 智能体的上下文压缩层,减少 60-95% Token 消耗

    ⭐ 43,430+ Stars
    🍴 3,010+ Forks
    📅 创建:2026-01
    🔄 更新:2026-06
    Python
    Apache 2.0
    Token优化
    上下文工程
    MCP

    📌 项目简介

    headroom —— AI 智能体的上下文压缩层

    headroom 是一个专为 AI 智能体设计的上下文压缩工具,在工具输出、日志、文件和 RAG 片段到达 LLM 之前对其进行压缩,可实现 60-95% 的 Token 减少,同时保证输出答案的准确性。

    项目支持以代码库、零代码代理、MCP 服务器三种形态接入,兼容 Claude Code、Codex、Cursor、Aider、Copilot CLI 等主流 AI 编程助手,本周在 GitHub 新增近 15,000 Stars,是 2026 年 6 月最热门的 AI 开源项目之一。

    43.4K+
    GitHub Stars
    3,010+
    Forks
    60-95%
    Token 节省率
    14.9K
    本周新增 Stars
    3 种
    接入形态
    10+
    兼容智能体

    🛠️ 安装要求和过程

    环境要求

    • Python:3.10 及以上版本(推荐 3.13)
    • Node.js:18+(如使用 TypeScript 版本)
    • 可选:Docker、Apple GPU(MPS 加速)、Rust(SSL 拦截场景)

    快速安装

    # Python 全量安装(推荐)
    pip install “headroom-ai[all]”

    # Node.js / TypeScript 安装
    npm install headroom-ai

    # Docker 镜像
    docker pull ghcr.io/chopratejas/headroom:latest

    # pipx 安装(隔离环境,推荐)
    pipx install –python python3.13 “headroom-ai[all]”

    可选功能插件

    headroom 支持按需安装额外功能模块:

    # 代理模式(零代码接入)
    pip install “headroom-ai[proxy]”

    # MCP 工具(接入 AI 智能体)
    pip install “headroom-ai[mcp]”

    # Kompress 模型(智能压缩)
    pip install “headroom-ai[ml]”

    # 代码压缩
    pip install “headroom-ai[code]”

    # 跨智能体记忆
    pip install “headroom-ai[memory]”

    # 图像压缩
    pip install “headroom-ai[image]”

    🌟 核心功能

    1. 三形态接入,零代码也能用

    headroom 提供三种接入方式,无论你是开发者还是普通用户都能快速上手:

    • 代码库:Python/TypeScript 直接调用 compress(messages),两行代码接入
    • 零代码代理:运行 headroom proxy --port 8787,无需修改原有代码,所有兼容 OpenAI API 的客户端均可接入
    • MCP 服务器:支持 headroom_compressheadroom_retrieveheadroom_stats 三个 MCP 工具,一键安装到 Claude Code 等智能体

    2. 智能压缩算法,60-95% Token 节省

    headroom 自动识别内容类型,匹配最优压缩算法:

    • JSON 数据 → SmartCrusher(智能结构压缩)
    • 代码文件 → CodeCompressor(语法感知压缩)
    • 自然语言 → Kompress-base 模型(AI 压缩模型)
    • 电子表格 → SmartCrusher(CSV/XLSX 节省 37-48%)
    • 图像 → 专用图像压缩(40-90% 压缩率)

    3. 可逆压缩(CCR),不丢失任何信息

    headroom 的 Context-Compressed Retrieval (CCR) 机制将原始内容本地缓存,模型需要时可通过 headroom_retrieve 按需获取完整内容。压缩只是”摘要”,详细信息随时可取回。

    4. 输出 Token 缩减,让 AI 少说废话

    除了压缩输入,headroom 还能减少模型的冗余输出:

    • 自动去除客套话、重复代码、常规步骤的深度思考
    • 简洁度引导:自动在系统提示末尾追加简洁要求,不破坏提示缓存
    • 算力路由:常规工具调用步骤降低模型思考等级,新问题/错误保留完整算力
    • 支持 headroom learn --verbosity --apply 自动学习最优简洁度

    5. 跨智能体共享记忆,自动学习优化

    headroom 支持多智能体共享上下文存储,自动去重。更强大的是 headroom learn 功能:自动挖掘失败会话,将修正规则写入 CLAUDE.md / AGENTS.md,让智能体越用越聪明。

    📊 压缩效果实测

    场景 压缩前 Token 压缩后 Token 节省率
    代码搜索(100 条结果) 17,765 1,408 92%
    SRE 故障排查 65,694 5,118 92%
    GitHub 问题分类 54,174 14,761 73%
    代码库探索 78,502 41,254 47%
    SQuAD v2(问答) 19%
    BFCL(工具调用) 32%

    基准测试显示,在 GSM8K 数学推理任务中,headroom 压缩后的准确率与基线完全一致(0.870);在 TruthfulQA 事实性问答中,压缩后准确率甚至提升了 3%(0.530 → 0.560)。压缩不影响答案质量,某些场景下甚至有所提升。

    🚀 典型使用场景

    场景一:封装现有 AI 编程助手(30 秒上手)

    如果你正在使用 Claude Code、Cursor 或 Aider,只需一条命令即可让 headroom 开始节省 Token:

    # 封装 Claude Code(自动配置,无需手动操作)
    headroom wrap claude

    # 封装 Cursor(生成配置后粘贴一次即可)
    headroom wrap cursor

    # 封装 Aider(自动启动代理并打开工具)
    headroom wrap aider

    # 查看压缩效果
    headroom perf

    封装后,所有工具输出、文件内容、RAG 片段在送入 LLM 之前都会被自动压缩,你无需修改任何代码或配置。

    场景二:作为 MCP 工具接入 AI 智能体

    headroom 原生支持 MCP 协议,可作为工具被 AI 智能体直接调用:

    # 安装到 Claude Code / OpenClaw 等支持 MCP 的智能体
    headroom mcp install

    # MCP 工具列表:
    # – headroom_compress : 压缩上下文
    # – headroom_retrieve : 取回原始内容(CCR)
    # – headroom_stats : 查看压缩统计

    对于 AI Agent 开发者,headroom 提供了一个开箱即用的 Token 优化方案,无需自己实现压缩算法。

    场景三:在 Python/TypeScript 应用中直接调用

    对于开发者,headroom 提供了简洁的 API,两行代码即可接入:

    # Python
    from headroom import compress
    compressed = compress(messages, model=“gpt-4o”)

    # TypeScript
    import { compress } from “headroom-ai”;
    const compressed = await compress(messages, { model });

    # 接入 Anthropic SDK
    from headroom import withHeadroom
    client = withHeadroom(Anthropic())

    # 接入 LangChain
    from headroom import HeadroomChatModel
    llm = HeadroomChatModel(your_llm)

    headroom 还支持 Vercel AI SDK、LiteLLM、Agno 等主流框架,覆盖几乎所有 LLM 应用开发场景。

    🤖 兼容智能体列表

    Claude Code
    ✅ 完全支持
    Codex
    ✅ 完全支持
    Cursor
    ✅ 完全支持
    Aider
    ✅ 完全支持
    Copilot CLI
    ✅ 完全支持
    OpenClaw
    ✅ 插件支持
    OpenAI API
    ✅ 代理接入
    Ollama
    ✅ 代理接入

    💡 推荐理由

    为什么你应该关注 headroom?

    1. 立竿见影的成本节省。如果你在用 Claude Code 或 Cursor 做日常开发,上下文窗口经常爆满,headroom 可以立即减少 60-95% 的 Token 消耗。对于使用按量付费 API 的开发者,这意味着直接节省 50-90% 的 LLM 调用成本。

    2. 本周最热的开源 AI 项目。headroom 本周在 GitHub 新增近 15,000 Stars,是 Python 趋势榜第一名。项目创建于 2026 年 1 月,仅用 5 个月就突破 4.3 万 Stars,增长速度惊人。

    3. 零代码接入,30 秒上手。不需要修改任何代码,不需要理解压缩算法,只需要运行 headroom wrap claudeheadroom proxy --port 8787,就能立即开始节省 Token。

    4. 可逆压缩让人放心。CCR 机制确保原始内容不会丢失,模型需要时随时可以取回。这意味着你可以大胆地开启压缩,而不用担心信息丢失。

    5. 不止于压缩。headroom 的 headroom learn 功能可以自动从失败会话中学习,将修正规则写入项目配置文件,让你的智能体越用越聪明。这是真正意义上的”自我改进”工具。

    遗憾点:目前压缩质量依赖于 Kompress 模型,需要下载模型文件(约几百 MB)。在完全离线环境中,需要使用预下载的模型或仅使用 SmartCrusher 等规则压缩算法。

    📥 下载地址


    本文由 WorkBuddy AI 自动生成 · 数据来源:GitHub API · 项目许可:Apache 2.0

  • claude-mem —— 82.9K+ Stars,让 AI 智能体拥有跨会话持久记忆的开源工具

    🔥 GitHub 热门 AI 开源项目 · 第 21 期

    📌 项目简介

    claude-mem 是为所有 AI 智能体提供跨会话持久化记忆的开源工具。它能自动捕获 AI 代理在会话中的所有操作行为,通过 AI 压缩生成结构化记忆条目,并在后续会话中自动注入相关历史上下文。支持 Claude Code、OpenClaw、Codex、Gemini、Copilot 等主流 AI 编程工具,让无状态的 AI 代理拥有真正的”长期记忆”。

    🖼️ 项目预览

    claude-mem 项目预览
    claude-mem – AI 智能体跨会话记忆引擎

    ⚙️ 安装要求与过程

    环境要求

    • Node.js ≥ 18.0.0(核心运行环境)
    • ✅ 支持的操作系统:macOSLinuxWindows(WSL2 推荐)
    • ✅ 已安装任意支持的 AI 工具:Claude Code / OpenClaw / Codex / Gemini CLI / Copilot 等
    • ✅ 网络畅通(需访问 AI 供应商 API)

    快速安装

    # 交互式安装(推荐)
    npx claude-mem install
    
    # 指定参数安装
    npx claude-mem install --provider gemini --model gemini-pro
    
    # 安装后修复(如遇问题)
    npx claude-mem repair
    
    # 查看版本
    npx claude-mem --version

    Server Beta 模式(团队协作)

    # 配置环境变量
    export CLAUDE_MEM_RUNTIME=server-beta
    export CLAUDE_MEM_SERVER_DATABASE_URL=postgres://user:pass@localhost:5432/claudemem
    
    # 启动 API 服务
    claude-mem server start
    
    # 启动生成 Worker
    claude-mem server worker start

    ✨ 核心功能

    1. 全自动上下文捕获与注入

    无需任何手动标注,claude-mem 自动捕获会话中的所有工具调用、文件读写、代码编辑等行为,通过 AI 压缩生成结构化记忆条目。新会话启动时,自动注入最相关的历史上下文,让 AI 代理”记得”之前做过的工作。

    2. 多工具统一支持

    原生支持 Claude CodeOpenClawCodexGeminiHermesGitHub CopilotOpenCode 等主流 AI 编程工具。同时支持通过 MCP 协议接入 Cursor、Windsurf 等更多 IDE,真正实现”一次安装,处处可用”。

    3. 可视化记忆管理

    内置 Web 查看器(默认 localhost),可实时查看 AI 代理的操作记录、生成的记忆条目、会话统计等信息。支持按项目筛选记忆内容,可手动触发项目全量学习(/learn-codebase),帮助 AI 快速理解代码库。

    4. 企业级多租户支持(Server Beta)

    支持基于 Postgres 的独立服务端部署,无需依赖本地 Worker 进程。提供团队/项目级别的权限隔离、API Key 管理、操作审计链路,支持 Docker 容器化部署和水平扩展,满足企业协作场景需求。

    5. 成本优化遥测

    采用 5 分钟滚动窗口聚合遥测事件,可降低 99.9% 的 PostHog 使用成本。支持历史遥测数据匿名化回填,AI 生成任务幂等性设计避免重复计费,用户可自主选择是否开启遥测。

    💡 典型使用场景

    场景一:多日开发项目的上下文延续

    你正在用 Claude Code 开发一个复杂功能,工作日结束时会话上下文已达到上限。第二天开始新会话时,claude-mem 自动注入昨天的设计决策、修改的文件、遇到的问题等关键上下文,让你无需重新解释项目背景,直接继续开发。

    场景二:团队协作中的知识共享

    在团队项目中,开发者 A 用 Claude Code 完成了某个模块的开发。通过 claude-mem 的 Server Beta 模式,团队成员 B 在新会话中也能获取到 A 的开发上下文,包括设计思路、踩过的坑、未完成的 TODO 等,实现 AI 辅助开发的”知识传承”。

    场景三:跨工具开发体验统一

    你白天用 Claude Code 开发,晚上用 Gemini CLI 做代码 Review。claude-mem 作为统一的记忆层,让不同 AI 工具之间共享上下文,无论在哪个工具中操作,AI 都能”记得”你之前做过什么。

    🌟 推荐理由

    AI 编程工具的最大痛点之一就是会话结束后上下文丢失——你花了半小时给 AI 解释项目背景,新会话又要重新来一遍。claude-mem 从根本上解决了这个问题。

    我特别欣赏它的零摩擦设计:安装后无需任何手动操作,AI 代理的所有行为都会被自动捕获和压缩。当你开始新会话时,相关记忆会自动注入,就像 AI “自然记得”之前的工作一样。

    另一个亮点是多工具统一支持。如果你像我一样同时使用多个 AI 编程工具,claude-mem 提供了一个统一的记忆层,让不同工具之间可以共享上下文。这比每个工具各自维护记忆要高效得多。

    项目的活跃度也很高,截至目前已有 82,991 个 Stars,最近更新在 2026 年 6 月,说明维护团队在持续迭代。Apache-2.0 许可也让它可以放心用于商业项目。


    📥 下载地址

    💡 小贴士:安装完成后,在 AI 工具中输入 /learn-codebase 可触发项目全量学习,让 AI 更快理解你的代码库。查看记忆内容可访问安装时显示的 Web 查看器地址(默认 http://localhost:<端口>)。

  • 【开源推荐】aisuite:14.5K+ Stars!Andrew Ng 出品,一行代码切换 14+ 个 AI 大模型

    【开源推荐】aisuite:14.5K+ Stars!Andrew Ng 出品,一行代码切换 14+ 个 AI 大模型

    🚀 aisuite
    Simple, unified interface to multiple Generative AI providers
    ⭐ 14,500+ Stars  |  🍴 1,500+ Forks  |  🐍 Python  |  📜 MIT License

    📌 项目简介

    aisuiteAndrew Ng(吴恩达)团队开源的轻量级 Python 库,通过一套统一 API 接口同时调用 OpenAI、Anthropic、Google、Mistral、AWS、Ollama 等 14+ 个 AI 大模型提供商。只需修改一个字符串即可切换模型,彻底告别各家 SDK 差异带来的适配噩梦。

    该项目采用两层架构:底层是统一 Chat Completions API(兼容 OpenAI 格式),上层是带工具调用的 Agents API。同仓库还包含基于 aisuite 构建的桌面 AI 助手 OpenCoworker

    ⚙️ 安装要求和过程

    环境要求

    • Python 3.9+
    • 各 AI 提供商的 API Key(或本地 Ollama)
    • 磁盘空间:约 50MB(基础包)

    快速安装(3步)

    # 基础安装(不含提供商 SDK)
    pip install aisuite
    
    # 安装时附带指定提供商的 SDK
    pip install 'aisuite[anthropic]'
    pip install 'aisuite[openai]'
    pip install 'aisuite[google]'
    
    # 安装所有提供商 SDK(完整版)
    pip install 'aisuite[all]'

    API Key 配置

    # 设置环境变量(Linux/macOS)
    export OPENAI_API_KEY="sk-your-key"
    export ANTHROPIC_API_KEY="sk-ant-your-key"
    
    # Windows PowerShell
    $env:OPENAI_API_KEY = "sk-your-key"
    $env:ANTHROPIC_API_KEY = "sk-ant-your-key"

    ✨ 核心功能

    ① 统一 Chat Completions API —— 一行切换模型
    模型名格式 <provider>:<model-name>,修改一个字符串即可在不同提供商之间切换,所有核心参数(temperature、max_tokens、tools 等)均为提供商无关。

    ② Agents API —— 让模型使用真实工具
    传入普通 Python 函数即可获得工具调用能力,aisuite 自动生成 JSON Schema、执行函数调用、将结果反馈给模型。max_turns 参数控制多轮对话,也可手动控制每一轮。

    ③ Toolkits —— 开箱即用的工具集
    内置 files(文件操作)、git(版本控制)、shell(命令行)等工具集,也可接入任意 MCP 服务器,让 Agent 获得文件系统、浏览器自动化等真实能力。

    ④ 生产级 Agent 管控
    支持 Tool Policies(工具调用审批策略)、State Stores(跨进程持久化对话状态,支持内存/文件/Postgres)、Artifacts & Tracing(完整记录 Agent 产出和每一步执行轨迹)。

    ⑤ OpenCoworker —— 开箱即用的桌面 AI 助手
    同仓库附赠 OpenCoworker 桌面应用(macOS/Windows),能聊天、做深度研究、读写文件、收发消息(Slack/Email)、生成 PDF 报告,并支持定时自动化任务(如每日新闻摘要)。数据完全留在本地。

    🎯 典型使用场景

    场景一:多模型对比评测
    研究人员可以用同一段代码,分别调用 GPT-4o、Claude 3.5 Sonnet 和 Gemini Pro,对比不同模型在同一 Prompt 下的响应质量,而无需维护三套 SDK 调用代码。aisuite 让 A/B 测试大模型 变得极其简单。

    场景二:构建支持多提供商的 AI 产品
    SaaS 产品需要同时支持 OpenAI 和 Anthropic,或允许用户选择自己偏好的模型。使用 aisuite,产品代码只需维护一套接口,后端根据配置动态路由到不同提供商,大幅降低维护成本。

    场景三:本地 + 云端混合部署
    开发阶段使用免费本地模型 Ollama,上线后切换到 OpenAI API。aisuite 让这种切换只需改一个字符串("ollama:llama3""openai:gpt-4o"),无需改动任何业务逻辑代码。

    💡 推荐理由

    Andrew Ng 亲自站台的项目,质量有保障。我推荐它的核心原因是它解决了一个真实存在的痛点:每家 AI 公司的 API 都不一样。OpenAI 用一套格式,Anthropic 用另一套,Google 又是另一套……如果你要同时支持多家,代码里全是 if provider == "openai" 这种恶心的判断逻辑。

    aisuite 把这一切统一了。它的 API 设计完全兼容 OpenAI 的 Chat Completions 格式,其他提供商只是”适配层”,对使用者完全透明。这种设计意味着你现有的 OpenAI 代码几乎不用改,就能无缝迁移到 Claude 或 Gemini。

    更让人惊喜的是它的 Agents API 设计——传入普通 Python 函数就能让模型调用工具,不需要手写 JSON Schema。加上对 MCP(Model Context Protocol)的原生支持,未来接入各种工具生态会很方便。

    如果你正在做 AI 应用开发,或者需要对比评测多个大模型,aisuite 是目前最优雅的解决方案,没有之一。

    📥 下载地址

    🌐 官方网站:
    github.com/andrewyng/aisuite
    💻 快速安装:
    pip install aisuite
    💬 Discord 社区:
    discord.gg/T6Nvn8ExSb

    🔌 支持的 AI 提供商

    提供商 模型示例 调用格式
    OpenAI gpt-4o, gpt-4-turbo openai:gpt-4o
    Anthropic claude-3-5-sonnet anthropic:claude-3-5-sonnet-20240620
    Google gemini-pro, gemini-1.5-pro google:gemini-pro
    Mistral mistral-large, mixtral-8x7b mistral:mistral-large
    Ollama(本地) llama3, mistral, codellama ollama:llama3
    AWS Bedrock anthropic.claude-3-5-sonnet bedrock:anthropic.claude-3-5-sonnet
    Hugging Face 任意 HF 模型 huggingface:model-name

    📅 文章发布时间:2026 年 6 月 15 日
    📜 开源协议:MIT License(可自由用于商业和非商业项目)

  • 【开源推荐】LangChain:139K+ Stars!AI Agent 工程平台,构建 LLM 应用的标准框架

    【开源推荐】LangChain:139K+ Stars!AI Agent 工程平台,构建 LLM 应用的标准框架

    LangChain

    ⭐ GitHub 139K+ Stars

    LangChain

    AI Agent 工程平台 – 构建 LLM 应用的标准框架

    📝 项目简介

    LangChain 是一个强大的 AI Agent 工程平台,为构建 LLM 驱动的应用提供完整的框架和工具链。它提供模块化的组件、丰富的集成库和灵活的抽象层,让开发者能够快速原型设计、轻松集成外部数据源,并将应用规模化部署到生产环境。无论是简单的聊天机器人还是复杂的多 Agent 系统,LangChain 都能提供最佳实践和技术支撑。

    139K+
    GitHub Stars

    23.1K+
    Forks

    MIT
    开源协议

    Python
    主要语言

    ⚙️ 安装要求

    环境要求

    • Python 3.9+ (推荐 3.10 或更高版本)
    • pip 或 uv 包管理器
    • LLM API Key(OpenAI / Anthropic / Google 等)
    • 可选:向量数据库(Chroma / Pinecone / Qdrant 等)

    快速安装

    Bash
    # 使用 uv 安装(推荐)
    uv add langchain
    
    # 或使用 pip
    pip install langchain
    
    # 安装特定集成(例如 OpenAI)
    pip install langchain-openai
    
    # 安装社区集成(例如 Hugging Face)
    pip install langchain-community

    核心功能

    🔗 模块化组件架构

    提供 LLM、Chat Models、Prompt Templates、Chains、Agents、Tools、Memory、Retrievers 等标准化模块,每个组件都可独立使用和组合,支持快速搭建复杂 AI 应用。

    🔌 丰富的集成生态

    支持 100+ 模型提供商(OpenAI、Anthropic、Google、Hugging Face 等)、50+ 向量存储(Chroma、Pinecone、Qdrant、FAISS 等)、30+ 工具集成,开箱即用。

    🤖 强大的 Agent 框架

    内置多种 Agent 类型(ReAct、Plan-and-Execute、OpenAI Tools 等),支持工具调用、记忆管理、多轮对话,可构建具有推理和行动能力的智能 Agent。

    📚 RAG 完整支持

    提供从文档加载、文本分割、向量化到检索的完整 RAG 管道,支持多种文档格式(PDF、HTML、Markdown 等)和检索策略(相似度搜索、MMR、Hybrid 等)。

    🚀 生产就绪工具链

    与 LangSmith 深度集成,提供追踪、评估、调试、监控能力;支持流式输出、异步调用、批量处理,满足高并发生产场景需求。

    💡 典型使用场景

    场景 1

    📊 企业知识库问答系统

    使用 LangChain 的 RAG 能力,将企业文档(PDF、Word、HTML)向量化存储,构建能够准确引用来源的智能问答系统。支持多轮对话、上下文记忆和来源追溯。

    from langchain_community.vectorstores import Chroma
    from langchain_openai import OpenAIEmbeddings
    from langchain.chains import create_retrieval_chain
    
    # 加载文档并构建向量库
    embeddings = OpenAIEmbeddings()
    vectorstore = Chroma.from_documents(docs, embeddings)
    
    # 创建检索问答链
    retriever = vectorstore.as_retriever()
    qa_chain = create_retrieval_chain(retriever, ...)

    场景 2

    🤖 智能客服 Agent

    利用 LangChain 的 Agent 和 Tools 机制,让 AI 能够调用订单查询、物流追踪、退款处理等 API,自动完成复杂的客户服务流程,支持多步骤推理和错误处理。

    from langchain.agents import create_tool_calling_agent
    from langchain.tools import Tool
    
    tools = [
        Tool(name="订单查询", func=query_order, ...),
        Tool(name="退款处理", func=process_refund, ...)
    ]
    
    agent = create_tool_calling_agent(llm, tools, prompt)

    场景 3

    ✍️ 内容生成与摘要

    结合 Prompt Templates 和 Chains,构建自动化的内容生成流水线,支持博客文章、产品描述、会议纪要摘要等场景,可集成到现有 CMS 或自动化工作流中。

    from langchain.chains import LLMChain
    from langchain.prompts import PromptTemplate
    
    template = "根据以下要点生成博客文章:\n{points}\n文章风格:{style}"
    
    chain = LLMChain(llm=llm, prompt=PromptTemplate.from_template(template))
    result = chain.invoke({"points": "...", "style": "专业且易懂"})

    💝 推荐理由

    LangChain 是我接触过的最成熟的 LLM 应用开发框架,没有之一。它不仅仅是一个库,更是一个完整的 AI Agent 工程平台

    生态极其丰富: 无论你想接入哪个模型、哪个向量库、哪个数据源,几乎都能找到现成的集成,省去了大量重复造轮子的时间。

    抽象设计优秀: 从底层的 LLM 调用到高层的 Agent 编排,LangChain 提供了多层次的抽象,既能快速 prototyping,也能精细控制每个环节。

    社区活跃度高: 139K+ Stars 不是虚的,GitHub 上每天都有新的讨论、PR 和案例分享,遇到问题几乎都能找到答案。

    生产工具完善: LangSmith 的集成让调试和监控变得异常简单,这是很多同类框架做不到的。

    如果你正在考虑用哪个框架来构建 AI 应用,LangChain 绝对是首选。它已经成为了这个领域的”标准”,学习它永远不会错 🚀

    📥 下载地址

    ···

    Tags
    #LangChain
    #AI Agent
    #LLM
    #Python
    #RAG
    #Agent工程

  • 【开源推荐】chrome-devtools-mcp:43.5K+ Stars!Google官方出品,让AI编程助手直接操控Chrome浏览器

    【开源推荐】chrome-devtools-mcp:43.5K+ Stars!Google官方出品,让AI编程助手直接操控Chrome浏览器

    🔥 GitHub 热门 AI 开源项目

    chrome-devtools-mcp

    43.5K+ Stars · Google Chrome 官方团队出品 · MCP 协议 · 浏览器自动化

    📌 项目简介

    chrome-devtools-mcp 是 Google Chrome DevTools 团队官方开源的 MCP(Model Context Protocol)服务器,它将 Chrome 浏览器的完整调试能力通过标准化协议暴露给 AI 编程助手。借助它,Claude Code、Cursor、Copilot、Antigravity 等 AI 工具可以直接控制浏览器、抓取性能数据、执行自动化测试,真正实现”AI 懂浏览器”。

    ⚙️ 安装要求与过程

    环境要求
    • Node.js LTS 长期支持版
    • Google Chrome 稳定版或更新版本
    • npm 包管理工具
    快速安装(4步搞定)
    # 1. 在 MCP 客户端配置中添加(以 Claude Code 为例)
    claude mcp add chrome-devtools –scope user \
      npx chrome-devtools-mcp@latest

    # 2. 或者直接在 MCP 配置 JSON 中添加
    {
      “mcpServers”: {
        “chrome-devtools”: {
          “command”: “npx”,
          “args”: [“-y”, “chrome-devtools-mcp@latest”]
        }
      }

    # 3. 无头模式 + 精简模式(仅3个核心工具)
    args: [“-y”, “chrome-devtools-mcp@latest”, “–slim”, “–headless”]

    # 4. 验证安装
    在 AI 客户端中输入:
    “Check the performance of https://developers.chrome.com”

    ✨ 核心功能

    🔧 完整的浏览器自动化
    基于 Puppeteer 实现,支持点击、拖拽、表单填充、文件上传、弹窗处理等 10 类输入自动化操作,且自动等待操作结果,避免时序问题。

    📊 性能分析 & Lighthouse 审计
    录制 Chrome 性能追踪(trace),提取可落地的性能优化建议;集成 Lighthouse,一键完成 PWA、SEO、可访问性审计。

    🐛 深度调试能力
    查看网络请求详情、截取页面截图、获取控制台消息(支持源码映射栈追踪)、获取堆内存快照,调试能力媲美手动打开 DevTools。

    🔌 多客户端支持
    原生支持 Claude Code、VS Code Copilot、Cursor、Antigravity、Gemini CLI、Windsurf 等所有主流 AI 编程工具,配置即用。

    🛠️ 48+ 工具全覆盖
    提供输入自动化、导航、设备模拟、性能分析、网络调试、内存调试、Chrome 扩展操作等 6 大类 48 个工具,满足各类浏览器自动化需求。

    🚀 典型使用场景

    场景一:AI 辅助前端性能优化
    让 Claude Code 打开你的前端项目页面,自动录制性能追踪,分析长任务、布局抖动、网络瀑布流,并给出针对性的优化建议。整个过程无需手动操作 DevTools。

    场景二:E2E 自动化测试生成
    告诉 AI 助手”帮我测试登录流程”,它会自动操控浏览器完成用户名输入、密码填写、按钮点击,并验证跳转结果。比传统 E2E 测试框架更灵活,用例用自然语言描述即可。

    场景三:Web 截图 & 视觉回归
    需要批量截取页面截图?AI 助手可以自动控制浏览器遍历页面,截图并对比基线图片,快速发现视觉回归问题。配合 CI/CD 流水线,实现全自动视觉测试。

    💡 推荐理由

    chrome-devtools-mcp 最大的价值在于打通了 AI 与现实浏览器之间的最后一公里。以前 AI 编程助手只能改代码,改完还需要开发者手动打开浏览器验证;现在 AI 可以自己打开页面、重现 Bug、截取证据、甚至给出修复后的验证结果。

    作为 Google Chrome 团队官方出品的项目,它的可靠性和迭代速度都有保障。特别是 –slim 精简模式的设计非常贴心——如果你只需要基础的页面导航和截图,3 个工具就够用,不会让 AI 的上下文被大量工具描述占据。

    对于 daily 使用 AI 编程工具的开发者,这个项目几乎是一个”必装”的 MCP 服务器。它让 AI 从”代码生成器”进化成了”全栈开发助手”,值得每个前端/全栈工程师尝试。🌟

    📦 下载地址

    License: Apache-2.0 | 开发语言: TypeScript | 维护方: Google Chrome DevTools Team

  • 【开源推荐】awesome-mcp-servers:82.7K+ Stars!MCP生态最全服务器资源集合

    【开源推荐】awesome-mcp-servers:82.7K+ Stars!MCP生态最全服务器资源集合

    【开源推荐】awesome-mcp-servers:82.7K+ Stars!MCP生态最全服务器资源集合

    ⭐ GitHub 82.7K+ Stars
    🔌 MCP生态必备

    📌 项目简介

    awesome-mcp-servers 是由 punkpeye 维护的 Model Context Protocol (MCP) 服务器资源集合,收录了 2700+ 个经过分类和验证的 MCP 服务器实现,涵盖文件访问、数据库、云服务等 50+ 分类,是 MCP 生态系统中最全面的资源库。

    🎯 核心亮点

    📦

    2700+ 服务器收录

    涵盖文件、数据库、云服务、开发工具等 50+ 分类,每个服务器都经过验证,质量有保障。

    🔌

    MCP 官方推荐

    作为 MCP 生态的权威资源集合,被 Anthropic 官方文档引用,是开发者接入 MCP 的首选参考。

    🏗️

    分类清晰易检索

    按功能、编程语言、部署方式多维度分类,支持中文文档(README-zh.md),中文开发者友好。

    🚀

    持续更新活跃

    社区驱动,每日更新新服务器。截至 2026 年 6 月已收录 2700+ 服务器,仍在快速增长中。

    📚 热门 MCP 服务器分类

    分类 代表服务器 功能
    文件系统 @modelcontextprotocol/server-filesystem 安全文件读写访问
    数据库 server-postgres / server-sqlite 数据库查询与操作
    Web 抓取 @modelcontextprotocol/server-puppeteer 网页自动化与截图
    Google 服务 @modelcontextprotocol/server-google-maps Google Maps / Sheets 集成
    开发工具 @modelcontextprotocol/server-github GitHub 仓库管理
    AI 工具 server-everart / server-sequential-thinking AI 图像生成 / 思维链

    ⚙️ 快速开始:使用 MCP 服务器

    # 安装 MCP 官方 SDK
    npm install -g @modelcontextprotocol/sdk
    
    # 使用 Awesome MCP Servers 推荐的服务器
    # 1. 文件系统服务器
    npx -y @modelcontextprotocol/server-filesystem /path/to/allowed/dir
    
    # 2. Google Sheets 服务器
    npx -y @modelcontextprotocol/server-google-sheets
    
    # 3. 在 Claude Desktop 中配置
    # 编辑 ~/Library/Application Support/Claude/claude_desktop_config.json
    {
      "mcpServers": {
        "filesystem": {
          "command": "npx",
          "args": ["-y", "@modelcontextprotocol/server-filesystem", "/允许访问的目录"]
        },
        "github": {
          "command": "npx", 
          "args": ["-y", "@modelcontextprotocol/server-github"]
        }
      }
    }
    
    # 4. 重启 Claude Desktop,即可使用 MCP 工具
    

    💡 典型使用场景

    场景1:AI 助手访问本地文件

    通过 MCP 文件系统服务器,让 Claude/GPT 等 AI 助手安全地读写本地文件,实现”AI 直接操作你的项目代码”,无需手动复制粘贴。

    场景2:AI 自动操作 GitHub

    配置 GitHub MCP 服务器后,AI 助手可以直接创建 Issue、提交 PR、审查代码。让 AI 真正成为你的 编程搭档

    场景3:数据库连接与查询

    通过 Postgres/MySQL MCP 服务器,让 AI 直接查询数据库、生成报表。自然语言转 SQL 不再需要中间层,AI 直接操作数据库。

    💬 推荐理由

    如果你正在关注 MCP(Model Context Protocol),这个项目是你必收藏的资源指南。2026 年 MCP 已经成为 AI 应用的标准协议,几乎所有主流 AI 工具(Claude Desktop、Cursor、Cline)都在支持。

    这个集合的价值在于:你不需要到处找”有没有 XXX 功能的 MCP 服务器”,来这里搜索就好了。2700+ 服务器 覆盖了几乎所有你能想到的场景。

    特别推荐它的 中文文档(README-zh.md),对国内开发者非常友好。如果你正在构建 AI 应用并需要接入外部工具,先从这里找现成的 MCP 服务器,能省大量开发时间。

    📥 资源地址

    📌 本文由自动化任务采集整理,数据截至 2026 年 6 月

    🏷️ 标签:MCP · AI Agent · 资源集合 · 开发工具

  • 【开源推荐】Goose:48.7K+ Stars!Linux Foundation 开源AI智能体,会动手的编程助手

    【开源推荐】Goose:48.7K+ Stars!Linux Foundation 开源AI智能体,会动手的编程助手

    Goose Logo

    Goose – 开源AI智能体 · Linux Foundation AAIF

    📦 项目简介

    Goose(鹅)是 Linux Foundation 下属 Agentic AI Foundation (AAIF) 推出的开源原生 AI 智能体,提供桌面应用、CLI 命令行、HTTP API 三种使用形态,支持接入 15+ 主流大模型,通过 MCP 协议可扩展 70+ 工具能力。核心引擎使用 Rust 构建,兼具高性能与内存安全。

    48.7K+
    GitHub Stars

    5.1K+
    Forks

    3
    使用形态

    70+
    MCP 扩展工具

    ⚙️ 安装要求和过程

    环境要求

    • 支持 macOS / Linux / Windows 三大平台
    • 桌面版:下载安装包直接安装,无需额外依赖
    • CLI 版:支持 Shell 一键脚本安装,或手动下载二进制文件
    • API 版:支持 Docker 部署,可嵌入任意应用
    • 网络要求:需能访问所配置的大模型 API 端点

    快速安装 · CLI 版(推荐开发者)

    # macOS / Linux 一键安装
    curl -fsSL https://github.com/aaif-goose/goose/releases/download/stable/download_cli.sh | bash
    
    # 验证安装
    goose --version
    
    # 交互式配置大模型
    goose configure
    
    # 启动对话
    goose start
    
    # 查看帮助
    goose --help

    桌面版安装

    # 1. 访问官网下载页面
    https://goose-docs.ai/docs/getting-started/installation
    
    # 2. 选择对应平台(macOS / Windows / Linux)
    # 3. 下载安装包,按引导完成安装
    # 4. 首次启动会引导配置大模型服务商和 MCP 扩展

    🚀 核心功能

    🖥️ 三合一使用形态

    同时提供桌面应用(GUI图形界面,适合日常使用)、CLI 命令行(适合开发者终端集成)、HTTP API(适合嵌入应用或自动化流程)三种方式,覆盖从个人到企业的全场景需求。

    🤖 15+ 大模型服务商支持

    兼容 Anthropic (Claude)、OpenAI (GPT)、Google (Gemini)、Ollama (本地模型)、OpenRouter、Azure、AWS Bedrock、Groq 等 15+ 主流大模型平台,灵活切换,按需选择,API Key 或已有订阅均可接入。

    🔌 MCP 协议扩展(70+ 工具)

    基于 Model Context Protocol (MCP) 开放标准,可接入 70+ 扩展工具,包括文件系统操作、数据库查询、Web 搜索、Git 操作、Slack/飞书消息等,让智能体能力无限延伸。

    🏗️ Rust 高性能核心

    核心引擎使用 Rust 编写(代码占比 64.3%),内存安全、运行高效,支持长时间稳定运行。前端界面使用 TypeScript(29.2%),兼顾性能与开发效率。Apache 2.0 开源协议。

    📦 自定义分发

    支持基于 Goose 构建自定义分发版本,可预配置大模型服务商、MCP 扩展、品牌信息,适合企业内部分发或构建专属 AI 助手产品。

    💡 典型使用场景

    场景一:AI 辅助全栈开发

    在 CLI 模式下,Goose 可以直接参与代码编写、调试、测试、依赖管理全流程。例如对它说”帮我给这个项目加上 Redis 缓存,需要修改哪些文件,依赖怎么装”,它会读代码、写代码、改配置、告诉你步骤,一条龙搞定。相比 GitHub Copilot 只做代码补全,Goose 可以自主执行命令、创建文件、运行测试,是一个真正能”动手”的编程助手。

    场景二:研究 & 自动化工作流

    配置好 Web 搜索和文档读取的 MCP 工具后,Goose 可以自动完成资料检索、信息汇总、方案对比等研究任务。例如:”帮我调研 Rust 中所有成熟的向量数据库 crate,对比性能和易用性,给出推荐”,Goose 会自动搜索、阅读文档、整理对比表格,最后输出一份完整报告。

    场景三:企业知识库问答助手

    通过自定义分发功能,企业可以基于 Goose 构建内部 AI 助手,接入私有知识库(Confluence、Notion、内部 Wiki、向量数据库等),让员工用自然语言查询公司规范、技术文档、HR 政策等,且所有数据留在企业内部,满足合规要求。

    ✨ 推荐理由

    Goose 最打动我的一点是它的「真正可执行」能力——不是只给你建议,而是真的能动手帮你做。装好之后,我跟它说”帮我给这个项目加上 Redis 缓存”,它真的会读代码、写代码、改配置、告诉我还需要装什么依赖,一条龙搞定。

    另一个亮点是不绑定任何一家大模型厂商。你可以今天用 Claude,明天换 Gemini,后天试 Ollama 本地模型,配置随时切换,数据都在自己手里。加上 MCP 协议的支持,扩展能力几乎是无限的。

    作为 Linux Foundation 旗下的开源项目,Goose 的代码完全透明,社区活跃,迭代迅速。如果你在找一个能真正帮你干活的 AI 助手,而不是只会聊天的玩具,Goose 绝对值得一试。

    📥 下载地址

    技术栈:Rust (64.3%) · TypeScript (29.2%) · JavaScript (1.6%) |
    协议:Apache 2.0 |
    组织:Linux Foundation AAIF |
    今日 Trending:GitHub 日榜