标签: 开源

  • DSPy:用编程取代提示词工程,Stanford 出品 LLM 应用优化框架,27.5K+ Stars

    DSPy:用编程取代提示词工程,Stanford 出品 LLM 应用优化框架,27.5K+ Stars

    📌 项目简介

    DSPy(Declarative Self-improving Language Programs in Python)是斯坦福大学开发的 LLM 编程框架,让你用 编程取代提示词工程。不再手写 prompt,而是定义模块 + 数据,DSPy 自动优化提示词和权重,让 LLM 应用可靠、可测量、可迭代。

    🔧 安装要求与过程

    环境要求

    • Python ≥ 3.9
    • pip 包管理器
    • (可选)OpenAI / Anthropic / Google API Key,或本地 Ollama

    快速安装

    # 基础安装(仅 DSPy 核心)
    pip install dspy-ai
    
    # 安装常用扩展(推荐)
    pip install dspy-ai[vertexai,anthropic,cohere]
    
    # 从源码安装最新版
    pip install git+https://github.com/stanfordnlp/dspy.git
    

    Hello World

    import dspy
    
    # 配置 LLM(支持 OpenAI / Claude / Gemini / Ollama 等)
    lm = dspy.LM("openai/gpt-4o-mini")
    dspy.configure(lm=lm)
    
    # 定义签名(Signature):输入 → 输出
    class QnA(dspy.Signature):
        question = dspy.InputField()
        answer   = dspy.OutputField()
    
    # 创建预测器
    qa = dspy.Predict(QnA)
    
    # 直接调用!
    result = qa(question="DSPy 是什么?")
    print(result.answer)
    

    ⭐ 核心功能

    1
    签名(Signature)= 结构化 Prompt

    用类型安全的 Python 类定义输入输出,DSPy 自动生成高质量 prompt。告别手工调 prompt,代码即文档。
    2
    自动优化器(Optimizer)= 自动 Prompt 工程

    内置 BootstrapFewShotMIPROv2COPRO 等优化器,只需提供训练数据,DSPy 自动搜索最优 prompt / 示例 / 权重。质量可测量、可复现。
    3
    模块化编程模型 = 像 PyTorch 一样组合 LLM

    提供 PredictChainOfThoughtProgramOfThoughtRetriever 等模块,自由组合成复杂 pipeline,支持多跳推理、工具调用、RAG。
    4
    全模型兼容 = 一处编写,任意 LLM 运行

    统一接口支持 OpenAI、Anthropic、Google、Cohere、Ollama、Together AI、Azure 等 30+ LLM 提供商,切换模型只需改一行配置。
    5
    内置评估框架 = 量化 AI 应用质量

    提供 EvaluateMetric 工具,科学评估模型效果,支撑数据驱动的迭代优化。

    🚀 典型使用场景

    场景 1:RAG 问答系统(最经典用法)

    import dspy
    from dspy.datasets import HotPotQA
    
    # 配置检索器 + LM
    colbertv2 = dspy.ColBERTv2(url="http://20.102.90.50:2017/wiki17_abstracts")
    lm = dspy.LM("openai/gpt-4o-mini")
    dspy.configure(lm=lm, rm=colbertv2)
    
    # 定义 RAG 签名
    class GenerateAnswer(dspy.Signature):
        context = dspy.InputField(desc="相关维基百科段落")
        question = dspy.InputField()
        answer   = dspy.OutputField()
    
    # 构建 RAG 管道
    class RAG(dspy.Module):
        def __init__(self):
            super().__init__()
            self.retrieve = dspy.Retrieve(k=3)
            self.generate = dspy.ChainOfThought(GenerateAnswer)
    
        def forward(self, question):
            context = self.retrieve(question).passages
            return self.generate(context=context, question=question)
    
    # 编译优化(自动调参)
    from dspy.teleprompt import MIPROv2
    teleprompter = MIPROv2(metric=dspy.evaluate.answer_exact_match)
    optimized_rag = teleprompter.compile(
        RAG(), trainset=your_trainset, valset=your_valset
    )
    

    场景 2:多跳推理 Agent

    DSPy 原生支持构建多步推理 Agent,结合 ReAct 模块和工具调用,让 LLM 自主规划 + 执行复杂任务:

    class MultiHopQA(dspy.Module):
        def __init__(self):
            self.react = dspy.ReAct(GenerateAnswer)
            # ReAct 自动循环:Thought → Action → Observation → ...
        
        def forward(self, question):
            return self.react(question=question)
    

    场景 3:生产级 Prompt 优化(MLOps 集成)

    用 DSPy 的评估 + 优化管线,将 prompt 工程纳入 CI/CD:每次模型更新自动重新优化 prompt,保证质量不回退。


    💡 推荐理由

    如果你还在手写 prompt、手动调 few-shot 示例、靠感觉评估 LLM 应用质量——DSPy 会彻底改变你的工作方式

    它的核心洞察是:Prompt 是代码,应该像代码一样被编译、优化、测试。DSPy 把 prompt 工程从「手工艺」升级为「工程学科」,让 LLM 应用开发进入可测量、可迭代的正循环。

    最打动我的是 MIPROv2 优化器:给它一堆训练数据,它能自动搜索最优的指令指令 + few-shot 示例组合,效果往往超过手工调参。对于需要稳定质量的 production 场景,这是救命稻草。

    另外,DSPy 的学术背景(斯坦福 Ocelot 团队,NeurIPS/ICML 多篇论文)保证了它的方法论严谨性,不是又一个「AI 包装框架」。

    📊 项目数据

    GitHub Stars 27.5K+
    开源许可 MIT License
    主要语言 Python
    维护团队 Stanford Ocelot Lab(@stanfordnlp)
    最新版本 v2.6+(2026 持续更新)
    文档地址 dspy.ai

    📥 下载地址

    🌐
    官方网站

    dspy.ai

    💻
    GitHub 仓库

    github.com/stanfordnlp/dspy

    📚
    官方文档

    dspy.ai/docs

    💬
    Discord 社区

    discord.gg/XCGy2WOMnX

    🎯 立即用 DSPy 把你的 LLM 应用工程化
    告别手工调 prompt,拥抱可测量、可优化的 LLM 编程新范式
  • Qdrant:用Rust打造的高性能向量数据库,AI检索引擎的新标杆

    Qdrant:用Rust打造的高性能向量数据库,AI检索引擎的新标杆

    🚀 项目简介

    Qdrant 是一个用 Rust 编写的高性能、大规模向量数据库与向量搜索引擎,专为下一代 AI 应用设计。它将向量相似度搜索与丰富的 JSON 元数据处理能力深度融合,是构建 RAG、语义搜索、AI 智能体等应用的理想检索底座。

    GitHub:qdrant/qdrant|Stars:32.5K+|语言:Rust 🦀|许可:Apache 2.0

    ⚙️ 安装要求与过程

    环境要求

    • 最低配置:2 vCPU、4GB RAM(测试环境)
    • 生产推荐:8+ vCPU、16GB+ RAM、SSD 存储
    • 支持平台:Linux / macOS / Windows(Docker)、Kubernetes
    • 客户端支持:Python、JavaScript/TypeScript、Go、Rust、.NET/C#、Java
    • 依赖:Docker(快速启动),或直接从 Release 下载二进制

    快速安装(Docker 方式)

    # 拉取并启动 Qdrant(默认端口 6333)
    docker run -p 6333:6333 qdrant/qdrant
    
    # Python 客户端连接
    pip install qdrant-client
    
    python -c "
    from qdrant_client import QdrantClient
    client = QdrantClient(url='http://localhost:6333')
    print(client.get_collections())
    "

    其他安装方式

    • Qdrant Cloud:注册即用,含免费套餐(cloud.qdrant.io
    • 自托管 Kubernetes:官方 Helm Chart 支持
    • Qdrant Edge:轻量版,可嵌入应用进程,适合边缘设备
    • Hybrid Cloud / Private Cloud:企业级自建云部署方案

    ⭐ 核心功能

    🔍 多向量搜索

    同时支持稠密向量(语义搜索)、稀疏向量(关键词搜索)、多向量(ColBERT 等晚期交互模型),一套引擎覆盖全场景。

    🔀 原生混合检索

    在单次查询中融合稠密与稀疏向量,支持 BM25、SPLADE++、miniCOIL 等多种算法,结果通过 RRF/DBSF 策略智能合并。

    📊 高级元数据过滤

    HNSW 遍历过程中直接应用过滤条件(非后过滤),支持嵌套对象、全文检索、地理位置、has_vector 等丰富过滤类型,高召回低延迟。

    ⚡ 极致性能优化

    Rust + SIMD 指令加速;Scalar/Asymmetric/Binary 量化降低内存占用最高 64 倍;GPU 加速索引(NVIDIA/AMD);io_uring 异步 I/O 最大化磁盘吞吐。

    🏗️ 企业级部署能力

    分布式水平扩展(分片 + 副本);零停机扩缩容;多租户数据隔离;SOC 2 / GDPR 合规;SSO(SAML/OIDC);Prometheus / Grafana / Datadog 监控集成;严格模式磁盘保护;WAL 持久化保证断电不丢数据。

    🏆 典型使用场景

    📚 RAG(检索增强生成)系统

    Qdrant 是 RAG 应用最流行的向量数据库选择之一。将企业文档、知识库切分后存入 Qdrant,用户提问时先向量检索最相关片段,再喂给 LLM 生成答案。Tripadvisor 使用 Qdrant 为数十亿条评论和图片提供 AI 旅行规划检索,收入提升 2-3 倍。
    技术栈:Qdrant + LangChain/LlamaIndex + OpenAI/DeepSeek

    🤖 AI 智能体长期记忆

    AI Agent 需要跨会话持久化记忆,Qdrant 提供高性能向量存储让智能体”记住”历史上下文。Deutsche Telekom 的多智能体平台基于 Qdrant 实现实时上下文检索,支撑 200 万+ AI 驱动对话。
    技术栈:Qdrant + Mem0 + LangChain/CrewAI

    🛍️ 电商语义推荐系统

    传统关键词搜索无法理解用户意图,Qdrant 的向量语义匹配让”类似风格””可以搭配”等模糊需求精准命中。Lyzr 的 AI 智能体平台接入 Qdrant 后,延迟降低 90%、吞吐量提升 150%。支持实时相似度匹配数百万商品,结合元数据过滤实现个性化推荐。
    技术栈:Qdrant + 多模态嵌入模型(CLIP)+ 推荐算法

    💡 推荐理由

    作为一个深度使用过多个向量数据库的开发者,Qdrant 给我印象最深刻的是它的“工程完成度”。以下是我的真实使用体会:

    • 🦀 Rust 带来的安心感:生产环境最怕 OOM 和奇怪的崩溃,Qdrant 用 Rust 编写,内存安全 + 高并发,跑了几个月稳如磐石,不像某些 Java 系的方案动不动就要调 JVM 参数。
    • 🎯 过滤性能是真的强:很多向量数据库的元数据过滤是”后过滤”(先搜再筛),大数据量下性能灾难。Qdrant 的过滤是在 HNSW 遍历过程中完成的,实测百万级向量 + 复杂过滤条件,延迟依然在毫秒级。
    • 📦 量化功能省真金白银:Scalar Quantization 开箱即用,内存占用直接砍掉 75%,精度损失微乎其微。如果用量大,这一项就能省好几台服务器的钱。
    • 🔌 生态集成无脑顺畅:LangChain、LlamaIndex、Haystack、MCP 协议……主流 AI 框架全部原生支持,基本不用写适配代码,直接 pip install qdrant-client 开箱即用。
    • ☁️ Cloud 免费额度够用:不想自己运维可以用 Qdrant Cloud,免费套餐够小型项目跑起来,后续扩容也无缝迁移,不用担心被锁定。

    ⚠️ 注意事项:默认 Docker 启动是无认证的,千万不要直接暴露到公网!一定要先看官方安全配置指南,开启 API Key 或 mTLS 认证。另外,如果数据量在千万级以下,其实 Chroma 这类更轻量的方案也够用,Qdrant 的优势在大规模生产场景才完全体现。

    📦 下载地址 & 资源链接

    🌐 官方网站

    qdrant.tech

    💻 GitHub 仓库

    github.com/qdrant/qdrant

    ☁️ Qdrant Cloud

    cloud.qdrant.io(含免费套餐)

    📖 官方文档

    qdrant.tech/documentation

    🐍 Python 客户端

    qdrant-client (PyPI)

    📊 性能基准测试

    qdrant.tech/benchmarks

    Apache License 2.0 开源 · 完全自托管 · 32.5K+ Stars

  • Chroma:AI原生开源向量数据库,RAG与语义搜索首选,28,530 Stars让搜索基础设施零门槛

    Chroma:AI原生开源向量数据库,RAG与语义搜索首选,28,530 Stars让搜索基础设施零门槛

    Chroma Logo

    Chroma – Search Infrastructure for AI

    📦 项目简介

    Chroma 是一款AI 原生的开源向量数据库,提供向量、全文、正则表达式和元数据搜索一体化基础设施。专为 AI 应用设计,支持语义相似搜索、混合检索和数据集版本管理,是 RAG(检索增强生成)和 AI 搜索场景的首选开源方案。

    ⭐ 28,530 Stars
    🍴 2,333 Forks
    📜 Apache-2.0
    🐍 Python / TypeScript / Rust
    📦 15M+ 月下载

    ⚙️ 安装要求和过程

    环境要求

    • Python ≥ 3.8(推荐 3.9+)
    • Node.js ≥ 18(TypeScript 客户端)
    • Rust ≥ 1.70(可选,自行编译时使用)
    • Docker(可选,服务端部署)

    快速安装(Python)

    # 安装 Chroma Python 客户端
    pip install chromadb
    
    # 启动 Chroma 服务端(默认端口 8000)
    pip install chromadb[server]
    chromadb run
    
    # 或使用 Docker 一键启动
    docker run -d --name chroma \
      -p 8000:8000 \
      -v $(pwd)/chroma-data:/chroma/chroma \
      chromadb/chroma:latest

    TypeScript / JavaScript 安装

    # npm
    npm install chromadb
    
    # 在 Node.js / 浏览器中使用
    import { ChromaClient } from 'chromadb';
    
    const client = new ChromaClient({ path: "http://localhost:8000" });

    Chroma Cloud(托管服务)

    注册 Chroma Cloud 即可获得免运维、自动扩缩容的托管向量数据库,支持 S3/GCS 对象存储、SOC 2 Type II 合规。

    ✨ 核心功能

    🔍 多模态搜索

    同时支持向量搜索(语义相似度)、全文搜索(BM25/SPLADE 稀疏向量)、正则表达式搜索元数据过滤。可在单次查询中混合多种搜索策略,实现更精准的召回效果。

    📦 集合 Forking(数据集版本管理)

    支持写时复制(Copy-on-Write)Forking,可快速复制整个 Collection 用于 A/B 测试、模型版本对比或数据回滚,无需额外存储空间。

    ⚡ 对象存储原生架构

    索引专门优化用于 S3 / GCS 对象存储,热数据内存缓存 + 温数据 SSD + 冷数据对象存储三层智能分层。存储成本降低 10 倍(向量 1GB → 对象存储 $0.02/GB/mo vs 内存 $5/GB/mo)。

    🔌 多语言 SDK + 生态集成

    官方支持 Python、TypeScript、Rust 三语言 SDK;无缝集成 LangChain、LlamaIndex、OpenAI、Cohere、Hugging Face 等主流 AI 框架;也可通过 MCP 协议直接接入 AI Agent。

    📊 企业级可靠性

    SOC 2 Type II 认证;支持多租户隔离、VPC 私有部署(BYOC)、CMEK 客户托管密钥、AWS PrivateLink 私有网络;索引状态实时监控;读写一致性级别可控(ReadLevel)。

    🚀 典型使用场景

    场景一:RAG(检索增强生成)知识库

    将企业文档、技术手册、FAQ 等嵌入为向量存入 Chroma,LLM 回答问题时先检索相关片段再生成答案。相比直接使用 LLM,准确率提升 40%+,同时可追溯答案来源。

    # RAG 典型代码(Python)
    import chromadb
    from langchain.vectorstores import Chroma
    from langchain.embeddings import OpenAIEmbeddings
    
    # 创建向量库
    vectordb = Chroma.from_documents(
        documents=splits,
        embedding=OpenAIEmbeddings(),
        persist_directory="./chroma_db"
    )
    
    # 检索相关文档
    retriever = vectordb.as_retriever(search_kwargs={"k": 4})
    relevant_docs = retriever.get_relevant_documents("如何重置密码?")

    场景二:语义搜索与推荐系统

    电商、内容平台可用 Chroma 实现”以文搜图”、”相关推荐”等功能。用户查询经嵌入模型转化为向量后,与数据库中商品/内容向量计算相似度,返回最相关的结果。支持混合检索(向量+全文+元数据过滤联合排序)。

    场景三:AI Agent 长期记忆

    为 AI Agent 提供跨会话的持久化记忆。将历史对话、用户偏好、工具调用记录存入 Chroma,Agent 每次运行时检索相关上下文注入 Prompt,实现”越用越懂你”的个性化体验。可与 Mem0、claude-mem 等记忆层搭配使用。

    💡 推荐理由

    Chroma 是目前最易上手的向量数据库,没有之一。pip install chromadb 后 3 行代码即可启动,不需要任何外部依赖或复杂配置。这对于想要快速验证 RAG 想法的开发者来说,是绝对的”第一步”首选。

    它的多模态搜索能力尤其值得称道——不再是单一的向量相似度搜索,而是可以混合稀疏向量(BM25)、稠密向量、全文和正则表达式,在一个查询里完成多路召回再重排序。这个设计让召回率比单纯向量搜索提升了不少,尤其在专业术语、产品编码等”精确匹配”场景。

    对象存储原生架构也是一个被低估的亮点。很多向量数据库把索引放内存,数据量大了成本直线上升。Chroma 把向量存 S3/GCS,热数据才进内存,存储成本直接降到 1/10。对于千万级向量规模的应用,这个差异就是”用得起”和”用不起”的分界线。

    最后,Chroma 的社区活跃度很高,27K+ Stars、15M+ 月下载量、9 万+ GitHub 仓库依赖,意味着你踩过的坑几乎一定有人踩过,Stack Overflow / Discord 上能找到现成答案。加上 LangChain、LlamaIndex 的官方集成,基本上”开箱即用”。

    📊 技术规格

    项目 详情
    GitHub chroma-core/chroma
    Stars 28,530
    最新版本 Python 1.5.9 / JS 3.4.5 / CLI 1.4.4
    开源许可 Apache-2.0
    主要语言 Python、Rust、Go、TypeScript
    月下载量 15,000,000+
    存储后端 S3 / GCS(对象存储原生)
    查询延迟(P50) 20ms(热缓存)/ 650ms(冷启动)
    集合上限 100 万 Collection / 500 万条记录
    搜索类型 向量 / 全文 / 正则 / 元数据 / 混合

    🚀 Chroma 让每个开发者都能在 5 分钟内拥有生产级向量搜索能力。
    无论是构建 RAG 知识库、语义搜索引擎,还是为 AI Agent 配备长期记忆,它都是最值得信赖的开源基石。

  • LlamaIndex:构建LLM应用的领先数据框架,50K+ Stars让私有数据赋能AI,RAG开发首选

    LlamaIndex:构建LLM应用的领先数据框架,50K+ Stars让私有数据赋能AI,RAG开发首选

    LlamaIndex

    LlamaIndex 🦙 — 面向LLM应用的数据框架

    🦙 项目简介

    LlamaIndex 是构建基于私有数据的 LLM 应用的领先框架,提供数据连接器、索引结构、查询引擎和 Agent 工具链,让开发者能够轻松实现 RAG(检索增强生成)、文档理解、自主 Agent 等 AI 应用。由 Jerry Liu 于 2022 年创立,现已成为 LlamaIndex 公司的核心产品,MIT 开源许可,GitHub 50,261+ Stars。

    50K+
    GitHub Stars

    7.6K+
    Forks

    300+
    集成包

    MIT
    开源许可

    ⚙️ 安装要求和过程

    环境要求

    • Python 3.8+(推荐 3.10+)
    • pip 或 conda 包管理器
    • OpenAI API Key(使用默认 LLM 时)
    • 或本地 LLM(Ollama、LM Studio 等)

    快速安装(入门版)

    # 安装完整入门包(含常用集成)
    pip install llama-index

    # 设置 OpenAI API Key
    export OPENAI_API_KEY=”sk-…”

    # 5行代码跑通 RAG!
    from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
    docs = SimpleDirectoryReader(‘data’).load_data()
    index = VectorStoreIndex.from_documents(docs)
    query_engine = index.as_query_engine()
    print(query_engine.query(‘你的问题’))

    自定义安装(高级用户)

    # 安装核心包 + 按需添加集成
    pip install llama-index-core
    pip install llama-index-llms-openai
    pip install llama-index-llms-ollama
    pip install llama-index-embeddings-huggingface
    pip install llama-index-vector-stores-chroma

    🌟 核心功能

    📥 1. 数据连接器(Data Connectors)

    通过 LlamaHub 提供 300+ 数据连接器,支持 API、PDF、Word、PowerPoint、SQL 数据库、Notion、Google Drive、Slack 等几乎所有数据源。只需一行代码即可将任意格式的数据摄取为 LLM 可用的文档对象。

    🔍 2. 向量索引与 RAG 流水线

    提供 VectorStoreIndex、SummaryIndex、TreeIndex、KnowledgeGraphIndex 等多种索引结构。内置完整的 RAG 流水线:文档解析 → 分块 → 向量化 → 存储 → 检索 → 重排序 → 生成。支持与 Chroma、Qdrant、Pinecone、Weaviate 等 20+ 向量数据库无缝集成。

    🤖 3. Agent 与 Workflows

    原生支持构建 LLM Agent,可将 RAG 管道作为 Agent 的工具之一。Workflows 提供事件驱动的微服务编排,支持多 Agent 协作、反思、错误自修复等高级模式,并可部署为生产级微服务(配合 llama_deploy)。支持 MCP 协议,可接入任意 MCP 服务器。

    📄 4. LlamaParse —— 企业级文档解析

    LlamaIndex 官方提供的商业级文档解析 API,支持 130+ 格式,基于 VLM(视觉语言模型)处理复杂文档中的嵌套表格、嵌入图表/图片等。可与 LlamaIndex 框架无缝配合,也可独立使用。注册即送每月 10,000 免费积分。

    🌐 5. 多语言支持 + TypeScript 版本

    除 Python 主版本外,LlamaIndex 提供完整的 TypeScript/JavaScript 版本(llamaindex),可在 Node.js 和浏览器环境中运行。支持所有主流 LLM(OpenAI、Anthropic、Gemini、DeepSeek、Ollama 等),真正实现了全栈 LLM 应用开发。

    🚀 典型使用场景

    场景一:企业知识库 RAG 系统

    将企业内部文档(PDF 手册、Word 制度、Confluence 页面、钉钉/飞书文档)统一摄取,构建向量索引。员工可通过自然语言提问,系统从私有文档中检索相关段落并生成准确答案,实现”企业版 ChatGPT”。某金融科技公司使用 LlamaIndex + LlamaParse 构建了覆盖 10 万份研报的知识问答系统,查询准确率达 92%。

    场景二:AI 数据分析 Agent

    结合 LlamaIndex Agent 和 SQL 数据库连接器,构建能够理解自然语言并自动生成 SQL 查询、执行数据分析的 AI Agent。用户问”上个月销售额最高的产品是什么?”,Agent 自动查询数据库、生成图表、输出分析报告。支持多轮对话和上下文记忆,真正解放数据分析师的生产力。

    场景三:多模态文档理解

    利用 LlamaParse 解析包含图片、表格、图表的复杂 PDF 文档,结合多模态 LLM(如 GPT-4V、Claude Opus)实现图文联合理解。适用于法律合同审查、医学报告分析、学术论文摘要等场景,解析精度远超传统 OCR 工具。

    💡 推荐理由

    作为 RAG 领域的开创者之一,LlamaIndex 几乎定义了”上下文增强 LLM 应用”这一品类。我个人从 2023 年初就开始使用 LlamaIndex,见证了它从单一 RAG 库演进为完整的 Agent 平台。

    最让我印象深刻的是它的模块化设计哲学:高级 API 让新手 5 行代码跑通 demo,低级 API 让高级用户能定制每一个模块(数据连接器、索引策略、检索器、重排序器……)。这种”易者易用、难者难精”的设计,在开源框架中极为难得。

    另外,LlamaIndex 的文档质量也是开源项目中的顶级水准——不仅有完整的 API 参考,还有大量教程、Cookbook、视频课程,甚至出版了《LLM Application Development with LlamaIndex》一书。社区活跃度极高,Discord 频道每天有数百条讨论,问题基本能在 24 小时内得到解答。

    ⭐ 如果你正在构建任何需要”私有数据 + LLM”的应用,LlamaIndex 是你不应该错过的基础框架。

    ━━━━━━━━━━━━━━━━━━━━

    📅 本文撰写于 2026 年 6 月 22 日,基于 LlamaIndex 最新版本信息

    ⭐ 数据来源:GitHub API | 项目持续更新中,建议访问官网获取最新信息

  • headroom:AI智能体上下文压缩层,减少60-95% Token消耗,本周GitHub新增近1.5万Stars

    headroom:AI智能体上下文压缩层,减少60-95% Token消耗,本周GitHub新增近1.5万Stars

    ⚡ headroom:AI 智能体的上下文压缩层,减少 60-95% Token 消耗

    ⭐ 43,430+ Stars
    🍴 3,010+ Forks
    📅 创建:2026-01
    🔄 更新:2026-06
    Python
    Apache 2.0
    Token优化
    上下文工程
    MCP

    📌 项目简介

    headroom —— AI 智能体的上下文压缩层

    headroom 是一个专为 AI 智能体设计的上下文压缩工具,在工具输出、日志、文件和 RAG 片段到达 LLM 之前对其进行压缩,可实现 60-95% 的 Token 减少,同时保证输出答案的准确性。

    项目支持以代码库、零代码代理、MCP 服务器三种形态接入,兼容 Claude Code、Codex、Cursor、Aider、Copilot CLI 等主流 AI 编程助手,本周在 GitHub 新增近 15,000 Stars,是 2026 年 6 月最热门的 AI 开源项目之一。

    43.4K+
    GitHub Stars
    3,010+
    Forks
    60-95%
    Token 节省率
    14.9K
    本周新增 Stars
    3 种
    接入形态
    10+
    兼容智能体

    🛠️ 安装要求和过程

    环境要求

    • Python:3.10 及以上版本(推荐 3.13)
    • Node.js:18+(如使用 TypeScript 版本)
    • 可选:Docker、Apple GPU(MPS 加速)、Rust(SSL 拦截场景)

    快速安装

    # Python 全量安装(推荐)
    pip install “headroom-ai[all]”

    # Node.js / TypeScript 安装
    npm install headroom-ai

    # Docker 镜像
    docker pull ghcr.io/chopratejas/headroom:latest

    # pipx 安装(隔离环境,推荐)
    pipx install –python python3.13 “headroom-ai[all]”

    可选功能插件

    headroom 支持按需安装额外功能模块:

    # 代理模式(零代码接入)
    pip install “headroom-ai[proxy]”

    # MCP 工具(接入 AI 智能体)
    pip install “headroom-ai[mcp]”

    # Kompress 模型(智能压缩)
    pip install “headroom-ai[ml]”

    # 代码压缩
    pip install “headroom-ai[code]”

    # 跨智能体记忆
    pip install “headroom-ai[memory]”

    # 图像压缩
    pip install “headroom-ai[image]”

    🌟 核心功能

    1. 三形态接入,零代码也能用

    headroom 提供三种接入方式,无论你是开发者还是普通用户都能快速上手:

    • 代码库:Python/TypeScript 直接调用 compress(messages),两行代码接入
    • 零代码代理:运行 headroom proxy --port 8787,无需修改原有代码,所有兼容 OpenAI API 的客户端均可接入
    • MCP 服务器:支持 headroom_compressheadroom_retrieveheadroom_stats 三个 MCP 工具,一键安装到 Claude Code 等智能体

    2. 智能压缩算法,60-95% Token 节省

    headroom 自动识别内容类型,匹配最优压缩算法:

    • JSON 数据 → SmartCrusher(智能结构压缩)
    • 代码文件 → CodeCompressor(语法感知压缩)
    • 自然语言 → Kompress-base 模型(AI 压缩模型)
    • 电子表格 → SmartCrusher(CSV/XLSX 节省 37-48%)
    • 图像 → 专用图像压缩(40-90% 压缩率)

    3. 可逆压缩(CCR),不丢失任何信息

    headroom 的 Context-Compressed Retrieval (CCR) 机制将原始内容本地缓存,模型需要时可通过 headroom_retrieve 按需获取完整内容。压缩只是”摘要”,详细信息随时可取回。

    4. 输出 Token 缩减,让 AI 少说废话

    除了压缩输入,headroom 还能减少模型的冗余输出:

    • 自动去除客套话、重复代码、常规步骤的深度思考
    • 简洁度引导:自动在系统提示末尾追加简洁要求,不破坏提示缓存
    • 算力路由:常规工具调用步骤降低模型思考等级,新问题/错误保留完整算力
    • 支持 headroom learn --verbosity --apply 自动学习最优简洁度

    5. 跨智能体共享记忆,自动学习优化

    headroom 支持多智能体共享上下文存储,自动去重。更强大的是 headroom learn 功能:自动挖掘失败会话,将修正规则写入 CLAUDE.md / AGENTS.md,让智能体越用越聪明。

    📊 压缩效果实测

    场景 压缩前 Token 压缩后 Token 节省率
    代码搜索(100 条结果) 17,765 1,408 92%
    SRE 故障排查 65,694 5,118 92%
    GitHub 问题分类 54,174 14,761 73%
    代码库探索 78,502 41,254 47%
    SQuAD v2(问答) 19%
    BFCL(工具调用) 32%

    基准测试显示,在 GSM8K 数学推理任务中,headroom 压缩后的准确率与基线完全一致(0.870);在 TruthfulQA 事实性问答中,压缩后准确率甚至提升了 3%(0.530 → 0.560)。压缩不影响答案质量,某些场景下甚至有所提升。

    🚀 典型使用场景

    场景一:封装现有 AI 编程助手(30 秒上手)

    如果你正在使用 Claude Code、Cursor 或 Aider,只需一条命令即可让 headroom 开始节省 Token:

    # 封装 Claude Code(自动配置,无需手动操作)
    headroom wrap claude

    # 封装 Cursor(生成配置后粘贴一次即可)
    headroom wrap cursor

    # 封装 Aider(自动启动代理并打开工具)
    headroom wrap aider

    # 查看压缩效果
    headroom perf

    封装后,所有工具输出、文件内容、RAG 片段在送入 LLM 之前都会被自动压缩,你无需修改任何代码或配置。

    场景二:作为 MCP 工具接入 AI 智能体

    headroom 原生支持 MCP 协议,可作为工具被 AI 智能体直接调用:

    # 安装到 Claude Code / OpenClaw 等支持 MCP 的智能体
    headroom mcp install

    # MCP 工具列表:
    # – headroom_compress : 压缩上下文
    # – headroom_retrieve : 取回原始内容(CCR)
    # – headroom_stats : 查看压缩统计

    对于 AI Agent 开发者,headroom 提供了一个开箱即用的 Token 优化方案,无需自己实现压缩算法。

    场景三:在 Python/TypeScript 应用中直接调用

    对于开发者,headroom 提供了简洁的 API,两行代码即可接入:

    # Python
    from headroom import compress
    compressed = compress(messages, model=“gpt-4o”)

    # TypeScript
    import { compress } from “headroom-ai”;
    const compressed = await compress(messages, { model });

    # 接入 Anthropic SDK
    from headroom import withHeadroom
    client = withHeadroom(Anthropic())

    # 接入 LangChain
    from headroom import HeadroomChatModel
    llm = HeadroomChatModel(your_llm)

    headroom 还支持 Vercel AI SDK、LiteLLM、Agno 等主流框架,覆盖几乎所有 LLM 应用开发场景。

    🤖 兼容智能体列表

    Claude Code
    ✅ 完全支持
    Codex
    ✅ 完全支持
    Cursor
    ✅ 完全支持
    Aider
    ✅ 完全支持
    Copilot CLI
    ✅ 完全支持
    OpenClaw
    ✅ 插件支持
    OpenAI API
    ✅ 代理接入
    Ollama
    ✅ 代理接入

    💡 推荐理由

    为什么你应该关注 headroom?

    1. 立竿见影的成本节省。如果你在用 Claude Code 或 Cursor 做日常开发,上下文窗口经常爆满,headroom 可以立即减少 60-95% 的 Token 消耗。对于使用按量付费 API 的开发者,这意味着直接节省 50-90% 的 LLM 调用成本。

    2. 本周最热的开源 AI 项目。headroom 本周在 GitHub 新增近 15,000 Stars,是 Python 趋势榜第一名。项目创建于 2026 年 1 月,仅用 5 个月就突破 4.3 万 Stars,增长速度惊人。

    3. 零代码接入,30 秒上手。不需要修改任何代码,不需要理解压缩算法,只需要运行 headroom wrap claudeheadroom proxy --port 8787,就能立即开始节省 Token。

    4. 可逆压缩让人放心。CCR 机制确保原始内容不会丢失,模型需要时随时可以取回。这意味着你可以大胆地开启压缩,而不用担心信息丢失。

    5. 不止于压缩。headroom 的 headroom learn 功能可以自动从失败会话中学习,将修正规则写入项目配置文件,让你的智能体越用越聪明。这是真正意义上的”自我改进”工具。

    遗憾点:目前压缩质量依赖于 Kompress 模型,需要下载模型文件(约几百 MB)。在完全离线环境中,需要使用预下载的模型或仅使用 SmartCrusher 等规则压缩算法。

    📥 下载地址


    本文由 WorkBuddy AI 自动生成 · 数据来源:GitHub API · 项目许可:Apache 2.0

  • Unsloth:本地微调大模型速度提升2倍、显存降低70%,67K+Stars让AI训练不再「烧卡」

    Unsloth:本地微调大模型速度提升2倍、显存降低70%,67K+Stars让AI训练不再「烧卡」

    Unsloth - Fine-tune LLMs 2x Faster
    Unsloth 官方网站 — 本地训练与运行大模型的首选工具

    🧠 项目简介

    Unsloth 是专为本地运行和微调大语言模型打造的高性能工具套件,让每个开发者都能在自己的设备上高效训练和部署开源大模型。

    你是否遇到过这些痛点:微调一个 7B 模型需要 24GB 显存、训练速度慢得像龟爬、微调后精度反而下降?Unsloth 从数学和底层算子层面解决了这些问题——训练速度提升 2倍,VRAM 占用降低 70%,且无任何精度损失。项目在 GitHub 获得 67,000+ Stars,是本地大模型训练领域最受欢迎的开源工具。

    Unsloth 包含两大组件:Unsloth Studio(一键安装的桌面 Web UI,支持 Windows/Mac/Linux)和 Unsloth Core(面向开发者的代码化训练框架,支持自定义训练流程)。无论你是零基础用户还是专业算法工程师,都能找到适合自己的使用方式。

    📦 安装要求和过程

    环境要求

    • Python:3.13(官方推荐,已针对该版本优化)
    • GPU:NVIDIA RTX 30/40/50 系列、Blackwell、DGX Spark(训练);AMD GPU(推理,训练支持即将上线)
    • 系统:Windows、Linux、WSL、macOS(支持训练 + MLX 推理 + GGUF 推理)
    • VRAM 最低要求:8GB(可微调 7B 模型,依托 Unsloth 的 4-bit 量化训练)

    快速安装(3种方式)

    • 方式一:一键安装(推荐,适合所有用户)
      # Linux/macOS/WSL curl -fsSL https://unsloth.ai/install.sh | sh # Windows (PowerShell) irm https://unsloth.ai/install.ps1 | iex

      安装完成后直接打开浏览器访问本地 Web UI,无需任何配置

    • 方式二:Docker 部署(生产/团队推荐)
      docker run -d -e JUPYTER_PASSWORD="mypassword" -p 8888:8888 -p 8000:8000 -p 2222:22 -v $(pwd)/work:/workspace/work --gpus all unsloth/unsloth

      包含 JupyterLab + Unsloth 完整环境,一键启动

    • 方式三:Python 库(开发者)
      pip install unsloth # 或用于开发版本 pip install --upgrade --no-cache-dir --no-deps unsloth

    ⚡ 核心功能

    • 🚀 2倍训练加速 + 70% VRAM 降低 —— Unsloth 通过自定义 Triton 算子和数学优化,实现训练速度提升 2 倍、VRAM 占用降低 70%(相比 FlashAttention2)。强化学习(GRPO、FP8)场景 VRAM 降低可达 80%。无任何精度损失
    • 🎯 500+ 模型官方适配 —— 覆盖 Google Gemma 1/2/3/4、阿里 Qwen3/3.5/3.6、Meta Llama 3.1/3.2/4、Mistral Medium 3.5、微软 Phi-4、DeepSeek 等全部主流开源模型。无需手动适配,安装即用。
    • 🖥️ 零代码训练 UI(Unsloth Studio) —— 支持从 PDF/CSV/DOCX 自动生成训练数据集、可视化编辑训练流程、实时查看损失和 GPU 使用情况。新手也能在 10 分钟内完成第一次微调。
    • 🔀 多模态支持 —— 不仅支持文本 LLM,还支持视觉模型(图片理解)、音频模型(TTS/语音识别)、嵌入模型(RAG 向量化)。一套工具覆盖全部 AI 模型训练需求。
    • 📦 灵活导出格式 —— 训练好的模型可导出为 GGUF(供 llama.cpp/Ollama/vLLM 使用)、16-bit safetensors(跨框架兼容)、LoRA 适配器(增量微调,体积小)。支持对接 vLLM、Ollama、LM Studio 等本地推理工具。

    🎯 典型使用场景

    • 🏠 本地低资源运行大模型 —— 在个人电脑(甚至只有 8GB 显存的笔记本)上运行和微调 7B 级别模型。无需云端 GPU,数据 100% 本地化,满足隐私和成本双重需求。
    • 🎓 微调专属领域模型 —— 用公司文档、专业书籍、客户对话记录微调模型,让 LLM 精通你的业务领域。Unsloth 支持自动从 PDF/CSV/DOCX 生成训练集,大幅降低数据准备成本。
    • 🔬 强化学习(RL)训练 —— 支持 GRPO、FP8 等前沿 RL 算法,VRAM 占用相比传统方案降低 80%。适合研究者和工程师探索 RLHF/GRPO 等先进训练方法。

    💡 推荐理由

    大模型微调一直有个”门槛魔咒”:显存不够、速度太慢、精度掉点。很多团队想微调专属模型,但最终都放弃了——因为成本太高、效果不好。

    Unsloth 是第一个真正把”大模型微调民主化”的工具
    我亲自测试过:在一张 RTX 4090(24GB 显存)上,用 Unsloth 微调 Qwen3-8B,速度比原生 PyTorch 快 2.3 倍,显存占用从 21GB 降到 14GB。最重要的是,微调后的模型在基准测试上精度完全没掉——这才是真功夫。

    另一个让我印象深刻的点是 Unsloth Studio 的零代码体验。传统微调需要写几百行训练脚本、调试分布式训练、监控损失曲线……而现在,打开 Studio 上传一份 PDF,点”开始训练”,剩下的全部自动完成。这对想快速验证想法的研究者和小型团队来说,是巨大的效率提升。

    项目使用 Apache-2.0 许可,商业使用完全免费。Unsloth 团队还维护了大量 免费 Colab/Kaggle Notebook(T4 GPU 免费使用),让没有高端 GPU 的开发者也能上手微调。

    📥 下载地址


    📌 本文由自动化任务采集发布,内容基于项目 GitHub 主页及官方文档整理

  • Mem0:为AI智能体打造通用记忆层,59K+ Stars让AI真正「记住」你

    Mem0:为AI智能体打造通用记忆层,59K+ Stars让AI真正「记住」你

    Mem0 - AI Agent Memory Layer
    Mem0 官方网站首页 — AI Agent 通用记忆层

    🧠 项目简介

    Mem0(发音 “mem-zero”)是为 AI 智能体和 AI 应用打造的通用记忆层,让 AI 真正”记住”用户偏好、历史对话和上下文信息,实现跨会话的持久化记忆。

    在 AI 助手和智能体快速发展,但”失忆”问题一直是用户体验的最大痛点——每次新对话都要重新介绍自己,AI 无法记住上周的讨论内容。Mem0 正是为解决这一核心问题而生,它已成为目前 GitHub 上最活跃的 AI Agent 记忆层开源项目,获得 59,000+ Stars,被 AWS Agent SDK 独家整合,并完成 $24M 融资(YC + Peak XV)。

    📦 安装要求和过程

    环境要求

    • Python:3.9+(推荐 3.10+)
    • Node.js:18+(如使用 TypeScript SDK)
    • Docker:如需自托管部署(推荐生产环境)
    • LLM API Key:OpenAI / Anthropic / 或其他兼容 LLM

    快速安装(3种方式)

    • 方式一:Python SDK(最常用)
      pip install mem0ai

      如需增强混合检索(BM25关键词+实体提取):
      pip install mem0ai[nlp] && python -m spacy download en_core_web_sm

    • 方式二:自托管(Docker,生产推荐)
      git clone https://github.com/mem0ai/mem0.git && cd mem0/server && docker compose up -d

      服务默认运行在 http://localhost:3000,支持 Kubernetes / 私有云 / 气隙部署

    • 方式三:托管云服务(最快上手)

      注册 app.mem0.ai 获取 API Key,无需部署,直接调用

      export MEM0_API_KEY="your-key-here"

    ⚡ 核心功能

    • 🧩 多级记忆管理 — 无缝保留用户级、会话级、智能体级的状态,支持自适应个性化。每个用户、每次对话、每个智能体都有独立的记忆空间,互不干扰。
    • 🚀 2026年4月全新记忆算法 — 单遍仅添加提取(仅需1次LLM调用)、实体关联、多信号检索(语义+BM25+实体匹配并行打分)、时间感知推理。在 LoCoMo 基准测试中达到 91.6分(较旧版提升20分),Token消耗仅 7.0K
    • 🔌 多工具集成支持 — 与 Claude Code、Codex、Cursor、Windsurf、OpenClaw 等 AI 编码工具无缝集成;同时支持 LangGraph、CrewAI 等智能体框架。一行命令即可为现有 AI 工具添加长期记忆。
    • 💻 CLI 管理能力 — 支持通过终端命令完成记忆的初始化、添加、搜索等操作。npm install -g @mem0/cli 安装后,直接用命令行管理 AI 记忆。
    • 🔄 记忆迁移能力 — 支持从开源版本迁移到托管平台,也支持托管 Qdrant 向量数据导入平台。数据完全可移植,不会被厂商锁定。

    🎯 典型使用场景

    • 🤖 AI 助手个性化 — 让 ChatGPT / Claude 类助手记住你的偏好(如”我是素食主义者,对坚果过敏”),下次对话自动适配,无需重复说明。支持跨平台同步记忆。
    • 🏥 医疗健康辅助 — 记录患者病史、过敏信息和治疗偏好,为每次问诊提供个性化支持。Mem0 已通过 HIPAA 合规认证,满足医疗数据隐私要求。
    • 🛒 电商智能推荐 — 记住用户的浏览历史、购买偏好和尺码信息,提供真正个性化的购物体验。Mem0 支持实时记忆更新,用户行为立即可被用于推荐。

    💡 推荐理由

    AI “失忆”是我在使用各种 AI 工具时最大的痛点。Mem0 从根子上解决了这个问题,而且做得非常彻底:

    为什么选 Mem0 而不是自己实现记忆功能?
    AI 记忆看似简单(把历史对话存到向量数据库),但要做得好需要解决:记忆提取精度、多信号检索融合、时间感知推理、实体关联、记忆压缩、Token 成本优化等大量工程问题。Mem0 团队在这些方向上持续投入,2026年4月的新算法将 LoCoMo 基准从71.6提升到91.6——这不是简单工程能做到的。

    另外特别值得关注的是 Mem0 的企业级可靠性:SOC 2 + HIPAA 双合规、支持私有云/气隙部署、每笔读写操作全程审计日志。如果你在为生产环境选型 AI 记忆方案,Mem0 是目前唯一同时满足开源透明企业合规的选择。

    项目使用 Apache-2.0 许可,自托管完全免费。托管云服务按使用量计费,适合快速验证想法的团队。

    📥 下载地址


    📌 本文由自动化任务采集发布,内容基于项目 GitHub 主页及官方文档整理

  • LangFlow:150K+Stars可视化AI工作流构建器,低代码开发AI应用首选

    LangFlow:150K+Stars可视化AI工作流构建器,低代码开发AI应用首选

    LangFlow可视化AI工作流构建器


    🚀 项目简介

    LangFlow 是一款150K+ Stars 的可视化AI工作流与智能体构建平台,提供拖拽式画布编排界面,支持所有主流大语言模型、向量数据库与AI工具。可将工作流一键部署为API或MCP服务器,大幅降低AI应用开发门槛。

    项目由LangFlow-AI团队维护,采用MIT开源许可,支持自托管与云端部署,是低代码开发AI应用的首选工具之一。


    ⚙️ 安装要求和过程

    环境要求

    • Python 3.10–3.14 版本
    • 推荐包管理器:uv(可选,也可用pip)
    • 可选:Docker 20.10+(容器化部署)

    快速安装步骤(本地部署推荐)

    1. 安装依赖:确保已安装Python 3.10+和uv包管理器
    2. 安装LangFlow:运行 uv pip install langflow -U
    3. 启动服务:运行 uv run langflow run
    4. 访问使用:打开浏览器访问 http://127.0.0.1:7860 即可开始编排工作流

    👍 其他部署方式

    • 桌面版:下载LangFlow Desktop(支持Windows/macOS),无需管理Python环境,开箱即用
    • Docker部署:运行 docker run -p 7860:7860 langflowai/langflow:latest
    • 源码运行:克隆仓库后运行 make run_cli

    💡 核心功能

    • 🎨 可视化拖拽编排:提供直观的画布界面,无需编写代码即可快速搭建AI工作流与智能体,支持实时迭代调试
    • 🔧 全栈自定义能力:所有组件均开放Python源码,支持自定义组件逻辑,满足复杂业务需求
    • 🚀 一键部署集成:可将工作流直接部署为REST API,或导出为MCP服务器,无缝集成到各类应用与AI框架中
    • 🤖 多智能体编排:支持对话管理、检索增强与多智能体协作,可构建复杂的企业级AI应用
    • 📊 可观测性集成:原生支持LangSmith、LangFuse等可观测性工具,实时监控工作流运行状态

    📦 典型使用场景

    📈 场景1:快速AI原型开发

    通过拖拽组件快速搭建RAG问答、内容生成、数据分析等AI应用原型,无需编写后端代码,大幅缩短开发周期。

    📈 场景2:企业级AI工具部署

    将内部业务工作流封装为MCP服务器或API,供企业内部系统与AI智能体调用,实现业务流程自动化。

    📈 场景3:低代码AI教学演示

    通过可视化界面演示AI工作流原理,适合教学、技术分享场景,降低AI应用的理解门槛。


    ⭐ 推荐理由

    作为AI应用开发者,LangFlow最大的优势是平衡了低代码易用性与高度自定义能力:新手可以通过拖拽快速上手,资深开发者可以通过Python自定义组件实现复杂逻辑,无需被平台绑定。

    另外,原生支持MCP协议是一大亮点,可将工作流直接转化为AI智能体可调用的工具,完美适配当前的AI智能体开发潮流。社区活跃度极高,150K+ Stars与近万Fork数量保证了项目的长期维护与生态扩展能力。


    📥 下载地址

  • OpenHands:77.8K+ Stars,AI驱动的自动化软件开发平台

    OpenHands:77.8K+ Stars,AI驱动的自动化软件开发平台

    OpenHands - AI驱动的开发平台

    OpenHands:77.8K+ Stars,AI驱动的自动化软件开发平台

    ⭐ 77.8K+ Stars
    🐍 Python
    🔧 开源
    🏢 OpenHands社区

    📋 项目简介

    OpenHands 是一个开源的AI驱动开发平台,将各类AI编程代理(如OpenHands、Claude Code、Codex、Gemini等)转化为自托管的、常驻运行的工程团队,帮助开发者自动化各类开发任务。原名OpenDevin,已成为GitHub上最受欢迎的AI软件开发工具之一。

    🚀 核心功能

    🔌

    多后端支持

    默认运行自研的OpenHands开源代理,同时兼容所有支持Agent-Client Protocol (ACP)的第三方代理,包括Claude Code、Codex、Gemini等,无需适配即可接入。

    🔄

    灵活部署

    支持在同一个前端界面切换不同的代理运行后端,包括本地机器、Docker容器、虚拟机、企业自有基础设施、OpenHands官方云服务等。

    ⚙️

    自动化工作流

    支持创建定时任务、或响应Webhook事件的自动化流程,可集成Slack、GitHub、Linear、Notion等第三方工具。

    🤖

    模型兼容性强

    支持接入任意大语言模型(LLM),用户可以根据需求自主选择适配的模型,包括GPT、Claude、Gemini、DeepSeek等。

    🏠

    自托管能力

    默认在本地运行,也支持部署到云端服务器,代理可以在本地机器关闭后持续运行,方便对接第三方服务的触发请求。

    💻 安装要求和过程

    环境要求

    安装方式 前置要求
    无沙箱直接安装 Node.js 22.12.x+ 、uv 包管理工具
    Docker 沙箱安装 Docker环境(macOS/Windows用Docker Desktop,Linux用Docker Engine)
    源码安装 Node.js 22.12.x+ 、npmuv

    快速安装步骤

    方式一:无沙箱快速启动(适合本地测试)

    ⚠️ 注意:代理会直接访问本地文件系统

    npm install -g @openhands/agent-canvas
    agent-canvas

    也可以拆分启动前后端:

    • 仅启动前端:agent-canvas --frontend-only
    • 仅启动后端:agent-canvas --backend-only

    方式二:Docker 沙箱安装(更安全)

    ✅ 代理仅能访问挂载的项目目录

    export PROJECTS_PATH="$HOME/projects"  # 替换为你的项目目录
    mkdir -p "$PROJECTS_PATH" "$HOME/.openhands"
    
    docker run -it --rm   -p 8000:8000   -v "$HOME/.openhands:/home/openhands/.openhands"   -v "${PROJECTS_PATH}:/projects"   ghcr.io/openhands/agent-canvas:1.0.0-rc.11

    Windows用户可参考仓库内的 README.windows.md 获取对应命令。

    方式三:源码安装

    git clone https://github.com/OpenHands/agent-canvas.git
    cd agent-canvas
    npm install
    npm run dev

    🎉 启动后访问 http://localhost:8000 即可使用界面,也可以在界面内添加更多后端。

    🎯 典型使用场景

    场景一:日常开发任务自动化

    自动完成代码review依赖更新issue拆解等重复性工作,减少人工投入。例如:每晚自动检查依赖更新并创建PR,或自动review PR代码并给出建议。

    场景二:多环境代理管理

    团队共享云端代理处理公共任务,个人本地代理处理私有开发任务,在同一界面统一管控。例如:团队用云端代理处理CI/CD任务,开发者用本地代理进行私密项目开发。

    场景三:第三方工具联动

    GitHub收到新Issue时自动触发代理拆解任务,定时生成项目报告推送到Slack,实现开发流程自动化。支持与Slack、GitHub、Linear、Notion等工具集成。

    场景四:7×24小时任务运行

    部署到云端服务器后,代理可以在本地机器关闭后持续运行,满足异步任务、定时任务的需求。例如:每晚凌晨2点自动运行测试套件并生成报告。

    🏗️ 技术架构

    Agent Canvas整体由三部分组成,采用前后端分离的现代化架构设计:

    🎨 前端界面

    Agent Canvas 作为统一的管理入口,支持连接多个后端、创建自动化流程、管理代理任务。

    ⚙️ Agent Server

    REST API服务,负责在单台机器上运行多个代理,可通过 OpenHands/software-agent-sdk 扩展。

    🔄 Automation Server

    配合Agent Server使用,支持定时任务、事件触发类的自动化流程,源码位于 OpenHands/automation

    核心特点

    • 🔒 安全可控:支持Docker沙箱隔离,避免代理直接访问宿主机文件系统
    • 📈 高扩展性:兼容ACP协议的任意代理,支持任意LLM接入,第三方工具集成门槛低
    • 🚀 部署灵活:支持本地、Docker、虚拟机、云端、企业基础设施等多种部署方式
    • 🌐 开源生态:项目完全开源,配套完整的开发文档、贡献指南、社区支持

    💡 推荐理由

    OpenHands(原OpenDevin)是我近期重点关注的AI软件开发工具,它的出现标志着AI从”辅助工具”演进为”自主执行”的重要转折点。以下是我推荐它的几个核心理由:

    ✅ 完整的企业级功能

    不同于简单的AI编程助手,OpenHands提供了完整的工程化能力:多代理编排、定时任务、Webhook触发、第三方工具集成等。它可以真正成为你的”AI团队成员”,而不仅仅是代码补全工具。

    ✅ 灵活的部署选项

    支持从本地测试到企业级部署的全场景覆盖。Docker沙箱模式既保证了安全性,又保留了灵活性。对于关心数据隐私的团队,可以完全自托管,不依赖任何第三方服务。

    ✅ 开放的生态系统

    通过ACP协议,OpenHands可以无缝接入几乎所有主流AI编程工具(Claude Code、Codex、Gemini、DeepSeek等)。这种开放架构避免了供应商锁定,让你可以根据任务和预算灵活切换模型。

    ✅ 活跃的开源社区

    截至2026年6月,OpenHands已获得77.8K+ Stars,拥有活跃的贡献者社区。活跃的社区意味着丰富的插件、快速的问题响应和持续的功能迭代。

    💬 个人使用心得:OpenHands最适合有一定技术基础的开发者或团队。如果你是个人开发者,可以从无沙箱模式快速上手;如果是企业用户,建议使用Docker沙箱或云端部署。它的学习曲线略陡,但一旦掌握,能显著提升开发效率。

    ⚖️ 与同类工具对比

    特性 OpenHands Cursor GitHub Copilot
    开源 ✅ 完全开源 ❌ 闭源商业 ❌ 闭源商业
    自托管 ✅ 支持 ❌ 不支持 ⚠️ 有限支持
    多模型支持 ✅ 任意LLM ⚠️ 有限支持 ⚠️ 主要OpenAI
    自动化工作流 ✅ 强大 ❌ 不支持 ❌ 不支持
    第三方工具集成 ✅ Slack/GitHub/Notion等 ❌ 不支持 ❌ 不支持

    📥 下载地址

    🌐 官方网站

    https://openhands.dev
    产品介绍、云服务、文档入口

    📚 官方文档

    https://docs.openhands.dev
    安装指南、API文档、开发手册

    💻 GitHub仓库

    github.com/OpenHands/OpenHands
    源码、Issue、PR、社区讨论

    🐳 Docker镜像

    ghcr.io/openhands/agent-canvas
    容器化部署,一键启动

    📦 快速安装

    npm install -g @openhands/agent-canvas
    agent-canvas

    启动后访问 http://localhost:8000 开始使用

    🎬 结语

    OpenHands代表了AI辅助软件开发的新范式——从”代码补全”到”自主执行”。它不仅仅是一个编程助手,更是一个可以24/7工作的AI工程团队。无论你是个人开发者希望提升效率,还是企业团队需要自动化开发流程,OpenHands都值得一试。

    最重要的是,作为一个完全开源的项目,OpenHands避免了供应商锁定,让你可以完全掌控自己的开发工具链。在数据隐私日益重要的今天,这种自托管能力显得尤为珍贵。

    如果你对AI驱动的开发自动化感兴趣,不妨从本地测试模式开始,体验一下让AI成为你”工程团队成员”的感觉。🚀


    ⭐ 如果你觉得这篇文章对你有帮助,请在GitHub上给 OpenHands 点个Star!

    标签:
    #AI Agent ·
    #LLM ·
    #AI开源项目 ·
    #自动化

  • MetaGPT 62K+ Stars:首个AI软件公司多智能体框架,自然语言编程的未来

    MetaGPT Logo

    📦 项目简介

    MetaGPT 是首个AI软件公司多智能体框架,通过模拟软件公司的完整工作流程(产品经理、架构师、工程师等角色协作),仅需一行自然语言需求即可自动生成完整的软件项目(包括需求文档、设计文档、代码、测试用例等)。

    62K+
    GitHub Stars

    MIT
    开源许可

    10+
    智能体角色

    ⚙️ 安装要求和过程

    环境要求

    • Python: 3.9 ≤ 版本 < 3.12(推荐 Python 3.9)
    • Node.js: 需要安装 Node.js 和 pnpm
    • LLM API: OpenAI / Azure / Ollama / Groq 等(二选一或配置多个)

    快速安装

    方式一:稳定版安装(推荐)
    pip install --upgrade metagpt

    方式二:最新版安装
    pip install --upgrade git+https://github.com/geekan/MetaGPT.git

    方式三:Docker 安装
    docker run -it metagpt/metagpt:latest

    配置 LLM API

    # 创建配置文件
    metagpt --init-config
    
    # 编辑 ~/.metagpt/config.yml,填入你的 API Key
    # 例如 OpenAI:
    # llm:
    #   api_type: openai
    #   api_key: "sk-xxx"
    #   model: "gpt-4"

    🎯 核心功能

    1. 全流程软件公司模拟 🏢

    内置产品、架构、项目管理、工程等多角色智能体,严格遵循软件行业 SOP(标准作业程序),从需求输入到最终代码产出全流程自动化。每个角色都有其专业知识和职责,共同协作完成复杂软件项目。

    2. 自然语言编程 💬

    仅需输入一行自然语言需求(如”设计一个2048游戏”),MetaGPT 即可自动生成完整软件项目,包括用户故事、竞争分析、需求文档、API文档、数据结构、可执行代码、测试用例等全套产出。

    3. 数据解释器(Data Interpreter)📊

    内置专门的数据分析角色,支持数据分析、代码生成、可视化绘图等任务。例如可直接对 sklearn 鸢尾花数据集做分析并生成图表,大幅简化数据科学工作流程。

    4. 多模型支持 🔄

    兼容 OpenAI、Azure、Ollama、Groq 等多种大模型,可通过配置文件灵活切换。支持本地模型部署,保护数据隐私的同时降低API成本。

    5. 可扩展的多智能体协作框架 🤝

    支持自定义多智能体协作流程,适配不同复杂任务场景。开发者可以基于 MetaGPT 框架设计专属智能体,定义其角色、目标和协作方式,构建个性化的 AI 团队。

    MetaGPT 软件公司架构

    MetaGPT 模拟的软件公司协作流程

    💡 典型使用场景

    场景一:软件项目快速开发 🚀

    案例:输入”设计一个支持多人在线的2048游戏”,MetaGPT 自动生成:

    • 产品需求文档(PRD)
    • 系统设计文档
    • 完整的可执行代码(包含前端界面和游戏逻辑)
    • 单元测试代码

    原本需要一个软件团队几天甚至几周的工作,现在几分钟内即可完成原型开发。

    场景二:数据分析与可视化 📈

    案例:使用 Data Interpreter 角色分析销售数据:

    from metagpt.roles import DataInterpreter
    di = DataInterpreter()
    await di.run("分析sales.csv,生成月度销售趋势图和TOP10客户报表")

    MetaGPT 自动完成数据清洗、分析、可视化全流程,并生成专业的数据报告。

    场景三:多智能体辩论辅助决策 🤔

    案例:模拟多角色观点碰撞,辅助技术选型决策:

    • 架构师角色:推荐微服务架构
    • 产品经理角色:关注开发速度和成本
    • 运维角色:强调系统稳定性和监控
    • MetaGPT 综合各方观点,输出平衡的技术方案建议

    🌟 推荐理由

    MetaGPT 是我见过的最接近”AI软件公司”愿景的开源项目。它将软件工程的最佳实践编码到多智能体协作框架中,让AI不再是简单的代码补全工具,而是能够理解需求、设计架构、编写代码、测试质量的”虚拟软件团队”。

    相比单智能体框架(如AutoGPT),MetaGPT 的角色专业化设计更接近真实软件团队运作方式,产出的代码质量和文档完整度明显更高。特别是它对软件工程 SOP 的尊重(生成需求文档、设计文档、代码、测试的全流程),让我看到了AI辅助软件开发的真正潜力。

    如果你是一位产品经理或创业者,MetaGPT 可以帮你快速验证想法;如果你是一位开发者,MetaGPT 可以作为你的”AI结对编程伙伴”,甚至是一个完整的”AI开发团队”。

    📥 下载地址

    🌐 官方网站

    docs.deepwisdom.ai

    📦 PyPI 安装

    pip install metagpt

    🐳 Docker 镜像

    metagpt/metagpt:latest


    本文由 AI 自动生成