分类: 开源项目

专注盘点全网热门人工智能开源项目,涵盖大模型、智能应用、视觉算法、工具插件等领域,搭建教程与优化思路,助力开发者低成本学习实践。

  • ChatGPT Retrieval Plugin:20k+ Stars!RAG鼻祖项目,让ChatGPT拥有外部知识

    ChatGPT Retrieval Plugin:20k+ Stars!RAG鼻祖项目,让ChatGPT拥有外部知识

    📦 项目简介

    chatgpt-retrieval-plugin 是 OpenAI 官方开源的 ChatGPT 检索插件模板,它是 RAG(检索增强生成) 领域的鼻祖级项目,让 ChatGPT 能够访问自定义数据源。

    这个项目展示了如何让大模型动态访问外部知识库,而不是仅仅依赖训练数据。它是现在所有 RAG 应用的”祖师爷”。

    ⚙️ 安装要求和过程

    环境要求

    • Python:3.8+(推荐 3.10+)
    • 向量数据库:Pinecone / Weaviate / Qdrant(任选其一)
    • OpenAI API Key:必需(用于 Embedding 和 ChatGPT)
    • 内存:建议 8GB+(本地测试可降级)

    快速安装步骤

    # 1. 克隆项目
    git clone https://github.com/openai/chatgpt-retrieval-plugin.git
    cd chatgpt-retrieval-plugin
    
    # 2. 安装依赖
    pip install -r requirements.txt
    
    # 3. 配置环境变量
    cp .env.example .env
    # 编辑 .env,填入你的 OpenAI API Key 和向量数据库配置
    
    # 4. 构建向量索引
    python scripts/process_docs.py
    
    # 5. 启动服务
    uvicorn server.main:app --reload --port 8000
    

    安装完成后,在 ChatGPT Plugins 模式中添加本地插件,指向 http://localhost:8000 即可。

    🔥 核心功能

    1. 向量检索(核心能力)

    将文档切片后转化为向量,存储到 Pinecone 等向量数据库。用户提问时,系统自动检索最相关的文档片段,注入到 ChatGPT 的上下文中。

    2. 递归爬取(数据接入)

    内置 scripts/process_docs.py 支持递归爬取网站内容(基于 BeautifulSoup),自动处理 HTML、PDF、Markdown 等多种格式。

    3. 元数据过滤(精准召回)

    支持为文档添加元数据标签(来源、日期、作者等),检索时可根据元数据进行过滤,大幅提升召回精准度。

    4. 插件标准接口(OpenAI 官方规范)

    严格遵循 OpenAI Plugin 规范(/.well-known/ai-plugin.json/openapi.yaml),可作为开发自定义 ChatGPT 插件的参考模板。

    💡 典型使用场景

    场景一:企业知识库问答

    将公司内部文档(产品手册、API 文档、HR 政策)向量化后接入 ChatGPT,员工可以直接用自然语言查询,比如”我们公司的报销流程是什么?”,ChatGPT 会从知识库中精准召回答案。

    价值:替代传统关键词搜索,问答准确率提升 60%+。

    场景二:技术文档助手

    开源项目维护者可以将项目文档(README、Wiki、Issue 解答)接入插件,用户在使用 ChatGPT 时可以直接获得项目相关的准确回答,而不用担心模型产生幻觉。

    价值:降低开源项目的使用门槛,减少重复解答。

    🌟 推荐理由

    这个项目最大的价值不在于代码本身(实际上代码量并不大),而在于它 定义了 RAG 的标准范式

    1. 文档切片 → Embedding → 向量存储 → 检索召回 → 注入上下文 → 生成回答,这条链路现在是业界标配。
    2. 如果你想做知识库问答、企业 AI 助手、文档 Copilot,这个项目是最好的起点。
    3. 虽然 OpenAI 后来推出了 Assistants APIGPTs,底层逻辑依然和这个插件一脉相承。

    值得一提的是,现在很多热门项目(RAGFlow、AnythingLLM、Dify 的知识库功能)都能看到这个项目的影子。可以说,它是 RAG 应用的”黄埔军校”。

    📥 下载地址

    如果你正在做知识库问答或者企业 AI 助手,这个项目值得深入研究。它不仅是 RAG 的鼻祖,更是理解大模型如何”连接外部知识”的最佳教材。

  • CopilotKit:32.7K Stars!构建Agent原生应用的最佳SDK,让AI真正融入你的产品

    CopilotKit:32.7K Stars!构建Agent原生应用的最佳SDK,让AI真正融入你的产品

    项目简介

    做AI应用开发的朋友,大概率都遇到过一个尴尬:

    你接了LLM,写了Prompt,聊天窗口跑起来了。然后用户说”帮我查订单”,你的Agent调用了工具,返回一段文字——但用户真正想要的,是一个可以点击的订单卡片、一个可以筛选的表单、一张可以交互的图表。

    CopilotKit 要解决的,就是这个问题。32.7K Stars,MIT协议,一句话说清楚:它是构建Agent原生应用的全栈SDK,让AI不仅能”说”,还能”做界面”。


    安装要求和过程

    环境要求

    • Node.js 18+
    • React 18+(React版本);Angular/Vue也已支持
    • TypeScript(推荐)

    快速开始(新项目)

    npx copilotkit@latest create -f nextjs

    已有项目接入

    npx copilotkit@latest init

    执行后自动完成:核心包安装、Provider配置、Agent与UI连接、部署就绪配置。

    安装React核心包

    npm install @copilotkit/react-core @copilotkit/react-ui

    核心功能

    1. 生成式UI(Generative UI)

    这是CopilotKit最招牌的能力。传统聊天AI返回的是文字,CopilotKit让Agent在运行时动态生成前端组件。比如用户说”画一个销售漏斗图”,Agent可以直接生成一个React组件渲染在聊天窗口里,而不是返回一段描述。

    2. AG-UI协议的主导者

    CopilotKit主导了AG-UI协议的制定,这个协议已经被Google、LangChain、AWS、Microsoft、Mastra、PydanticAI等主流AI厂商采纳。它的作用是实现Agent与用户界面的标准化通信——你可以理解为”AI界面的HTTP协议”。用了CopilotKit,你的Agent天然支持这个协议,未来对接其他厂商的生态会很顺畅。

    3. 人机协同工作流

    有些操作,AI不能自己拍板。CopilotKit支持Agent执行过程中主动暂停,请求人工确认后再继续。比如”我准备删除这三条数据,确认?”——用户点确认,Agent再执行。这个能力在金融、医疗、企业审批等场景里几乎是必需的。

    4. 共享状态管理

    Agent和UI组件之间有一层可实时读写同步的状态层。Agent更新了状态,UI立刻响应;用户在UI上操作,Agent也能立刻感知。这种双向实时交互,是”真正Agent原生应用”和”套壳聊天窗口”之间最本质的差别。

    5. 自学习Agent(早期访问)

    通过人类反馈持续学习(RLHF),Agent可以不用微调模型,就能通过用户反馈自动优化行为。而且支持按用户偏好做个性化适配——也就是说,同一个Agent,给不同用户用,会越来越”懂”那个用户。


    典型使用场景

    场景一:AI客服系统

    用户在聊天窗口说”查我的订单”。传统方案:Agent返回一段文字”您的订单号是xxx,状态是已发货”。

    用了CopilotKit:Agent动态生成一个可交互的订单卡片,用户可以直接在聊天窗口里点击”退款”、”查看物流”、”联系卖家”。整个过程不需要跳转页面,也不需要用户去别的地方操作。

    场景二:企业知识库助手

    结合RAG,用户问”帮我分析Q1各区域的销售趋势”。Agent不仅返回文字结论,还直接生成一张交互式图表,用户可以在聊天窗口里筛选区域、切换时间维度、导出数据。这种体验,是传统”一问一答”的AI客服完全给不了的。


    推荐理由

    我自己试CopilotKit最直接的原因是:受够了”AI聊天窗口”的局限。

    接LLM很方便,但接完之后你会发现,用户真正想要的不是”聊天”,而是”完成任务”。查订单、填表单、看报表——这些事情,纯文字交互的效率是很低的。

    CopilotKit的Generative UI把这个问题解决了。Agent可以动态生成界面,用户可以在聊天窗口里直接操作,整个体验是对话式+界面式的混合——这其实更像人跟人打交道的方式,而不是人跟搜索引擎打交道的方式。

    另外一点是AG-UI协议。现在AI应用开发有个痛点:每接一个平台(Web、移动端、Slack、Teams),都要重新写一套UI逻辑。CopilotKit的AG-UI协议让同一套Agent逻辑可以同时驱动多个平台的UI——这个在多端部署的场景下,省的工作量是很可观的。


    下载地址

    GitHub仓库https://github.com/CopilotKit/CopilotKit(32.7K+ Stars)

    官方网站https://www.copilotkit.ai/

    开发文档https://docs.copilotkit.ai/

    npm安装npm install @copilotkit/react-core @copilotkit/react-ui

  • Scrapling:能自适应网页改版的 Python 爬虫框架,GitHub 6.1 万星

    Scrapling:能自适应网页改版的 Python 爬虫框架,GitHub 6.1 万星

    Scrapling 项目封面

    项目简介

    Scrapling 是一个自适应的 Python 网页爬取框架,由开发者 D4Vinci 在 GitHub 上发布,能够优雅地处理从单次 HTTP 请求到全站大规模爬取的各种场景。它既保留了 Scrapy 式的 Spider API,又在反爬对抗、动态页面渲染、AI 集成等方向做了大量现代化扩展。截至 2026 年 6 月,项目已在 GitHub 收获超过 6.1 万 Star,是今年爬取类工具里增长最快的开源项目之一。

    安装要求和过程

    环境要求:Python 3.10 及以上版本。

    基础安装

    pip install scrapling

    基础安装仅包含解析引擎,不包含浏览器相关依赖。如果需要爬取动态渲染页面,需要额外安装 fetchers 组件。

    完整安装(推荐)

    # 安装爬虫器依赖(含 Playwright)
    pip install "scrapling[fetchers]"
    
    # 安装浏览器及系统依赖(会自动下载 Chromium)
    scrapling install
    
    # 强制重装
    scrapling install --force

    Docker 方式(生产推荐)

    docker pull pyd4vinci/scrapling
    docker run -it pyd4vinci/scrapling

    全功能安装

    # 安装所有功能(MCP 服务器、交互式 Shell 等)
    pip install "scrapling[all]"

    核心功能

    • 自适应元素跟踪——网站结构变更后,Scrapling 可以自动重新定位之前配置好的目标元素,不需要每次改版都手动更新选择器。支持 CSS 选择器、XPath、标签过滤、文本搜索、正则搜索等多种定位方式。
    • 多层反爬对抗——内置 StealthyFetcher,可以模拟真实浏览器的 TLS 指纹(impersonate Chrome),绕过 Cloudflare Turnstile 等常见反爬机制。支持代理轮换(ProxyRotator)、DNS over HTTPS(防止 DNS 泄露)。
    • 动态页面渲染——通过 DynamicFetcher 集成 Playwright Chromium,支持在头部模式下加载 JavaScript 渲染后的页面,并等待网络空闲(network_idle)后再提取内容。这对现代前端框架搭建的网站非常关键。
    • 内置 MCP 服务器——Scrapling 自带一个 MCP(Model Context Protocol)服务器,可以直接对接 Claude、Cursor 等 AI 编程工具。AI 可以通过它发起真实的网页请求、提取结构化数据,而不需要把整个网页内容都塞进上下文。
    • 类 Scrapy API + 流式爬取——如果你用过 Scrapy,上手 Scrapling 的 Spider 几乎零成本。还支持流式模式(stream()),可以实时获取爬取结果,不需要等整个爬虫跑完。支持爬取暂停/恢复(checkpoint)。

    典型使用场景

    场景一:AI 训练数据采集

    训练一个垂直领域 LLM 最头疼的事之一就是高质量语料的获取。用 Scrapling 可以稳定地批量采集目标网站的结构化文本(文章正文、评论、产品描述等),配合它的自适应跟踪能力,即使目标网站偶尔改版也不会导致采集任务中断。内置的 MCP 服务器还能让 AI 直接参与到采集策略的调整中。

    场景二:竞品价格/库存监控

    电商场景里经常需要定时抓取竞品的价格、库存、促销信息。Scrapling 的会话管理(FetcherSession)和代理轮换能力可以在不被封禁的前提下持续获取数据,DynamicFetcher 则能处理那些需要 JavaScript 渲染才能看到价格的现代电商站点。

    推荐理由

    我自己在做 AI 数据源建设时试用过不少爬取框架,Scrapling 最让我印象深刻的有三点。

    一是它的「自适应」不是噱头。实际跑下来,目标网站小改版(比如某个 div 的 class 名变了,但内容结构没大变),Scrapling 确实有一定概率自动跟上去,不需要立刻人工介入。虽然这不是万能的,但对于长期维护的采集任务来说,能显著减少运维成本。

    二是性能确实能打。官方给出的基准测试里,文本提取速度比 BeautifulSoup + lxml 快约 784 倍。我自己用几个真实页面测了一下,解析速度确实比用 BS4 快得多,内存占用也更友好。

    三是文档写得相当认真。README 里有完整的 API 说明、多个场景的使用示例、性能对比数据,甚至还有一个专门的 ReadTheDocs 文档站。对开源项目来说,这往往比单纯堆功能更有价值——因为别人用得起来,项目才活得下去。

    当然也有需要注意的地方:项目目前还在 v0.4.x,API 可能会有变动;另外部分高级功能(如 StealthyFetcher)依赖较复杂的本地环境配置,新人上手可能需要多花点时间。

    总体来说,如果你需要在 2026 年选一个爬取框架来支撑 AI 相关的数据管道,Scrapling 值得认真考虑。

    下载地址

  • LiteLLM:49.4K Stars!统一100+ LLM API网关,让多模型调用不再碎片化

    LiteLLM:49.4K Stars!统一100+ LLM API网关,让多模型调用不再碎片化

    LiteLLM

    📌 项目简介

    LiteLLM 是 BerriAI 团队维护的开源 AI 网关,为 100+ 大语言模型提供统一访问接口,支持 OpenAI 格式调用,内置成本跟踪、安全防护、负载均衡等企业级能力。Y Combinator W23 孵化项目,Stripe、Netflix、Google ADK 等大厂均在用。

    🔧 安装要求和过程

    环境要求

    • Python 3.8+ 环境
    • 推荐使用 uv 包管理器(也可使用 pip
    • 本地开发额外依赖:docker-compose(用于启动数据库、Prometheus 等依赖服务)

    快速安装步骤

    # 1. 克隆仓库
    git clone https://github.com/BerriAI/litellm.git && cd litellm
    
    # 2. 安装开发依赖
    make install-dev
    
    # 3. 初始化虚拟环境
    python -m venv .venv
    # Linux/Mac:
    source .venv/bin/activate
    # Windows:
    .venv\Scripts\activate
    uv sync --all-extras --group proxy-dev
    
    # 4. 生成 Prisma 客户端
    uv run prisma generate && prisma generate
    
    # 5. 启动本地服务(后端)
    python litellm/proxy/proxy_cli.py
    
    # 6. 启动前端(另开终端)
    cd ui/litellm-dashboard && npm install && npm run dev

    💡 Docker 快速启动:

    docker run -v $(pwd)/litellm_config.yaml:/app/config.yaml -p 4000:4000 berriai/litellm:latest

    🚀 核心功能

    🌐 统一 LLM 调用

    支持 100+ LLM 厂商(OpenAI、Anthropic、AWS Bedrock、Azure、Google Vertex AI、Cohere、HuggingFace、vLLM、NVIDIA NIM 等),所有调用兼容 OpenAI API 格式,切换模型无需修改业务代码。

    🛡️ AI 网关能力

    虚拟 API 密钥管理、多租户成本跟踪、负载均衡、重试/fallback 逻辑、安全防护规则、调用日志,并提供 管理后台 UI可视化监控。

    🤖 智能体(A2A)支持

    支持调用 LangGraph、Azure AI Foundry、Bedrock AgentCore 等平台的智能体,提供 A2A 协议适配,可统一接入各类智能体服务。

    🔗 MCP 工具桥接

    可将 MCP 服务器的工具转换为 OpenAI 格式 tool 定义,直接对接任意 LLM;支持通过网关统一代理 MCP 工具调用。

    🏢 企业级特性

    单点登录(SSO)、自定义集成、专属支持、SLA 保障、功能优先级定制。高性能:1k RPS 场景下 P95 延迟仅 8ms

    💡 典型使用场景

    场景一:多模型切换,代码零改动

    开发阶段使用 GPT-4o 快速验证,生产环境切换到 Claude Sonnet,只需修改 model 参数,业务代码无需任何改动:

    # 同一套代码,切换不同模型
    from litellm import completion
    
    response = completion(
        model="openai/gpt-4o",
        messages=[{"role": "user", "content": "Hello!"}]
    )
    
    response = completion(
        model="anthropic/claude-sonnet-4-20250514",
        messages=[{"role": "user", "content": "Hello!"}]
    )

    场景二:企业 LLM 调用管理与成本跟踪

    为不同团队/项目分配虚拟 API 密钥,按维度统计 LLM 调用花费,设置安全防护规则(如屏蔽敏感词、限制调用频率),所有调用日志可视化。

    知名用户包括:Stripe、Netflix、Google ADK、Grepile、OpenHands、OpenAI Agents SDK。

    场景三:MCP 工具无缝对接 LLM

    通过 LiteLLM 的 MCP 工具桥接功能,可以将任何 MCP 服务器的工具转换为 OpenAI 格式,让任意 LLM 都能调用这些工具,无需为每个 LLM 单独适配。

    💬 推荐理由

    LiteLLM 解决了 AI 应用开发中最痛点的问题之一——多厂商 LLM 接口不统一。以前需要为每个厂商写一套调用代码,现在只需一套 OpenAI 格式代码,通过 model="anthropic/claude-sonnet-4-20250514" 这样的格式就能无缝切换。

    对于需要调用多个 LLM 的应用(比如 AI Agent 系统),LiteLLM 几乎是标配组件。Stripe、Netflix、Google ADK 等大厂都在用,说明其稳定性和性能已经过生产验证。

    最打动我的一点:它不只做模型路由,还内置了成本跟踪、负载均衡、安全防护等企业级功能,真正把”调用 LLM”这件事做成了一个完整的网关产品,而不只是一个简单的路由库。

    LiteLLM – 让100+ LLM 调用,从此只有一种方式。

  • supermemory:25.6K Stars!AI时代记忆引擎,让AI真正记住你

    supermemory:25.6K Stars!AI时代记忆引擎,让AI真正记住你

    配图

    supermemory


    项目简介

    supermemory 是一个专为AI时代设计的记忆引擎,解决AI助手”转头就忘”的痛点。它能自动从对话中提取事实、维护用户画像、支持混合搜索(RAG+记忆),在LongMemEval、LoCoMo、ConvoMem三大基准测试中均排名第一。


    安装要求和过程

    环境要求

    环境 要求
    Node.js v18+
    Python 3.9+
    API Key supermemory.ai 控制台获取

    快速安装

    方式一:MCP服务器(推荐,无需写代码)

    # Claude/Cursor/Windsurf 一键安装
    npx -y install-mcp@latest https://mcp.supermemory.ai/mcp --client claude --oauth=yes
    

    方式二:API调用(开发者)

    # Node.js/TypeScript
    npm install supermemory
    
    # Python
    pip install supermemory
    

    方式三:官方应用(零代码)

    访问 app.supermemory.ai 直接使用,支持浏览器扩展、Discord机器人等多种接入方式。


    核心功能

    功能 说明
    自动记忆管理 从对话中自动提取事实,处理信息矛盾(如”搬到旧金山”覆盖”住在纽约”),自动遗忘过期内容,单次调用约50ms
    用户画像维护 自动维护稳定事实(偏好、习惯)+ 近期活动上下文,两大维度合并,让AI真正”认识你”
    混合搜索 单条查询同时支持RAG(知识库检索)+ 记忆检索,一次性返回文档结果和个性化上下文
    多平台连接器 支持Google Drive、Gmail、Notion、OneDrive、GitHub等平台自动同步,支持实时webhook更新
    多模态内容提取 支持PDF、图片(OCR)、视频(转录)、代码(AST感知分块)等内容的上传和解析

    典型使用场景

    场景一:给Claude/Cursor加上”永久记忆”

    通过MCP服务器接入后,AI助手会自动调用 memory 工具保存重要信息,调用 recall 工具搜索历史记忆。你说出”我喜欢TypeScript函数式编程”,AI下次写代码时会自动遵循这个偏好,不再需要每次重复背景。

    场景二:为AI产品构建上下文栈

    通过单个API调用获得完整的上下文能力,无需自己配置向量数据库、embedding管道、分块策略。Vercel AI SDK、LangChain、LangGraph、OpenAI Agents SDK等主流框架均可直接嵌入,几行代码完成集成。

    场景三:企业知识库+个人记忆融合

    supermemory的混合搜索模式,让AI既能检索企业知识库文档(RAG),又能记住每个用户的个性化偏好和历史对话(记忆),两种能力融合,特别适合企业AI助手、客服机器人等场景。


    推荐理由

    AI助手的”失忆症”是 currently 最大的体验短板——每次新对话都要重新介绍背景,让人疲惫。supermemory 把这个痛点打穿了。

    我实际测试下来,最打动我的是混合搜索设计:它不是简单的RAG检索,而是把”知识库文档”和”用户记忆”放在同一次查询里返回,AI的回答既有知识依据、又有个性化上下文,体验差距非常明显。

    另外,MCP服务器的接入方式对普通用户极其友好——一条命令让Claude Desktop、Cursor、Windsurf等工具全部获得持久记忆,不需要写任何代码,这才是AI基础设施该有的样子。

    三大基准测试全部排名第一,说明这个方向的技术路线是扎实的,不是噱头。


    下载地址

    来源 链接
    GitHub仓库 github.com/supermemoryai/supermemory(25.6K ⭐)
    官方网站 supermemory.ai
    文档中心 supermemory.ai/docs
    控制台 console.supermemory.ai
    npm包 npmjs.com/package/supermemory
    PyPI包 pypi.org/project/supermemory

    开源协议:MIT | 主要语言:TypeScript | 最后更新:2026年6月

  • Chroma:43.1K Stars!开源向量数据库,让AI应用拥有长期记忆

    Chroma Banner

    开源向量数据库 · 让AI拥有长期记忆

    📦 项目简介

    Chroma 是专为AI应用打造的开源嵌入式向量数据库,让大模型拥有”长期记忆”。它通过简单的Python/JavaScript API,帮助你快速存储、查询和检索文本Embedding向量,是构建RAG(检索增强生成)应用的首选基础设施。

    🔗 GitHub:chroma-core/chroma ⭐ Stars:43.1K+ 📄 协议:Apache 2.0

    🔧 安装要求和过程

    环境要求

    依赖 要求
    Python ≥ 3.8(推荐 3.10+)
    内存 ≥ 4GB(生产环境建议 8GB+)
    存储 ≥ 1GB 可用空间
    可选后端 SQLite(默认)、DuckDB(分析场景)

    快速安装(3行代码搞定)

    pip install chromadb
    
    import chromadb
    client = chromadb.Client()  # 开箱即用!

    Docker 部署(生产推荐)

    docker run -d --name chroma \
      -p 8000:8000 \
      ghcr.io/chroma-core/chroma:latest

    部署后访问 http://localhost:8000 即可使用 HTTP API。

    🔩 核心功能

    功能 说明
    多模态向量搜索 支持文本、图像、音频的 Embedding 存储与相似度检索
    多客户端 SDK Python、JavaScript/TypeScript、REST API 全覆盖
    全文+向量混合搜索 结合关键词匹配与语义搜索,提升召回率
    内置 Embedding 函数 默认集成 Sentence Transformers,无需外部 API
    持久化存储 支持本地持久化、DuckDB 后端,数据不丢失

    💡 典型使用场景

    场景一:RAG(检索增强生成)应用

    将企业文档、知识库存入 Chroma,用户提问时先检索相关片段,再送给 LLM 生成答案。相比直接问 LLM,准确率提升 40%+,幻觉大幅减少。

    # RAG 核心代码(不到 20 行!)
    collection = client.create_collection("docs")
    collection.add(
        documents=["公司报销流程...", "年假申请..."],
        ids=["1", "2"]
    )
    results = collection.query(query_texts=["如何报销?"], n_results=1)
    # results 包含最相关的文档片段

    场景二:AI Agent 长期记忆

    让 AutoGPT、CrewAI 等 Agent 框架拥有跨会话记忆。将历史对话的 Embedding 存入 Chroma,下次对话时自动检索上下文,实现”越用越懂你”。

    场景三:语义推荐系统

    电商、内容平台的”猜你喜欢”,用 Chroma 存储商品/内容向量,用户行为向量实时检索最相似物品,推荐相关度远超协同过滤。

    🌟 推荐理由

    Chroma 是我见过最易上手的向量数据库,没有之一。不需要学 SQL,不需要配置复杂集群,pip install 之后 3 行代码就能跑起来。

    相比 Pinecone 等托管服务,Chroma 完全开源、可自托管,数据不出门,合规零风险。相比 Faiss,它提供了完整的 CRUD API 和持久化,不用每次重启都重新建索引。

    如果你正在做 RAG、AI 搜索、推荐系统,或者想给 Agent 加上记忆,Chroma 是目前开发体验最好的选择。LangChain、LlamaIndex、Supabase 都已官方集成,生态非常成熟。

    📥 下载地址

    渠道 链接 / 命令
    GitHub 仓库 github.com/chroma-core/chroma
    官网文档 docs.trychroma.com
    PyPI 安装 pip install chromadb
    npm 安装 npm install chromadb
    Docker 镜像 ghcr.io/chroma-core/chroma:latest

    — 开源项目第52期 | 夜野飞云 —

  • Chroma:43.1K Stars!开源向量数据库,让AI应用拥有长期记忆

    Chroma:43.1K Stars!开源向量数据库,让AI应用拥有长期记忆

    Chroma Banner

    开源向量数据库 · 让AI拥有长期记忆

    📦 项目简介

    Chroma 是专为AI应用打造的开源嵌入式向量数据库,让大模型拥有”长期记忆”。它通过简单的Python/JavaScript API,帮助你快速存储、查询和检索文本Embedding向量,是构建RAG(检索增强生成)应用的首选基础设施。

    🔗 GitHub:chroma-core/chroma ⭐ Stars:43.1K+ 📄 协议:Apache 2.0

    🔧 安装要求和过程

    环境要求

    依赖 要求
    Python ≥ 3.8(推荐 3.10+)
    内存 ≥ 4GB(生产环境建议 8GB+)
    存储 ≥ 1GB 可用空间
    可选后端 SQLite(默认)、DuckDB(分析场景)

    快速安装(3行代码搞定)

    pip install chromadb
    
    import chromadb
    client = chromadb.Client()  # 开箱即用!

    Docker 部署(生产推荐)

    docker run -d --name chroma \
      -p 8000:8000 \
      ghcr.io/chroma-core/chroma:latest

    部署后访问 http://localhost:8000 即可使用 HTTP API。

    🔩 核心功能

    功能 说明
    多模态向量搜索 支持文本、图像、音频的 Embedding 存储与相似度检索
    多客户端 SDK Python、JavaScript/TypeScript、REST API 全覆盖
    全文+向量混合搜索 结合关键词匹配与语义搜索,提升召回率
    内置 Embedding 函数 默认集成 Sentence Transformers,无需外部 API
    持久化存储 支持本地持久化、DuckDB 后端,数据不丢失

    💡 典型使用场景

    场景一:RAG(检索增强生成)应用

    将企业文档、知识库存入 Chroma,用户提问时先检索相关片段,再送给 LLM 生成答案。相比直接问 LLM,准确率提升 40%+,幻觉大幅减少。

    # RAG 核心代码(不到 20 行!)
    collection = client.create_collection("docs")
    collection.add(
        documents=["公司报销流程...", "年假申请..."],
        ids=["1", "2"]
    )
    results = collection.query(query_texts=["如何报销?"], n_results=1)
    # results 包含最相关的文档片段

    场景二:AI Agent 长期记忆

    让 AutoGPT、CrewAI 等 Agent 框架拥有跨会话记忆。将历史对话的 Embedding 存入 Chroma,下次对话时自动检索上下文,实现”越用越懂你”。

    场景三:语义推荐系统

    电商、内容平台的”猜你喜欢”,用 Chroma 存储商品/内容向量,用户行为向量实时检索最相似物品,推荐相关度远超协同过滤。

    🌟 推荐理由

    Chroma 是我见过最易上手的向量数据库,没有之一。不需要学 SQL,不需要配置复杂集群,pip install 之后 3 行代码就能跑起来。

    相比 Pinecone 等托管服务,Chroma 完全开源、可自托管,数据不出门,合规零风险。相比 Faiss,它提供了完整的 CRUD API 和持久化,不用每次重启都重新建索引。

    如果你正在做 RAG、AI 搜索、推荐系统,或者想给 Agent 加上记忆,Chroma 是目前开发体验最好的选择。LangChain、LlamaIndex、Supabase 都已官方集成,生态非常成熟。

    📥 下载地址

    渠道 链接 / 命令
    GitHub 仓库 github.com/chroma-core/chroma
    官网文档 docs.trychroma.com
    PyPI 安装 pip install chromadb
    npm 安装 npm install chromadb
    Docker 镜像 ghcr.io/chroma-core/chroma:latest

    — 开源项目第52期 | 夜野飞云 —

  • agency-agents:107K Stars!203个即插即用AI专家角色,让一人公司成为现实

    agency-agents:107K Stars!203个即插即用AI专家角色,让一人公司成为现实

    🤖 项目简介

    agency-agents 是一个开源的AI智能体集合项目,本质上是一套即插即用的AI专家角色库。每个智能体都有明确的身份定义、关键规则、工作流程和交付标准,安装到Claude Code、Cursor、Aider等AI编程工具后,用自然语言即可激活对应专家角色。

    项目包含203个覆盖14个专业领域的AI智能体,从前端开发、UI设计到营销运营、游戏开发,几乎涵盖了数字产品构建的全链路。它不是一个Agent框架,而是一套经过实战验证的”岗位说明书”集合。

    ⚙️ 安装要求和过程

    环境要求:

    • 已安装任意支持的AI编程工具(Claude Code、Cursor、Aider、Windsurf等)
    • 本地有Git环境(用于克隆项目)
    • Shell环境(Bash/PowerShell)用于运行安装脚本

    快速安装步骤:

    1. 克隆项目到本地:git clone https://github.com/msitarzewski/agency-agents.git
    2. 进入项目目录:cd agency-agents
    3. 一键安装到Claude Code(推荐):./scripts/install.sh --tool claude-code
    4. 或生成多工具适配格式:./scripts/convert.sh && ./scripts/install.sh
    5. 在AI工具中直接激活:激活前端开发专家模式,帮我开发一个React组件

    中文用户可使用汉化版:git clone https://github.com/blackpinkman/agency-agents-zh.git

    ✨ 核心功能

    • 高度专业化:每个智能体深耕单一领域,不是通用Prompt模板。比如”前端开发专家”知道如何做组件拆解、类型安全、无障碍访问,”Reddit社区运营专家”知道如何自然植入、避免营销感。
    • 人格化设计:每个智能体都有独特沟通风格。比如”证据收集员”默认会找出3-5个代码问题、要求所有结论提供视觉证明;”趣味注入者”会在UI设计中加入符合产品调性的趣味交互。
    • 交付物明确:每个智能体都有标准化的输出要求——代码、方案文档、测试报告、运营策略,而非模糊的建议。这让AI的输出真正可落地。
    • 多工具兼容:原生支持Claude Code,同时提供转换脚本,可适配Cursor、Aider、Windsurf、GitHub Copilot、Gemini CLI等12种主流AI编程工具,无需重新编写智能体规则。
    • 可定制扩展:支持用户修改现有智能体的性格、工作流程,也可以按照模板新增自定义智能体,提交PR贡献到社区。目前已有超过200个专业智能体。

    🚀 典型使用场景

    场景一:一人公司MVP开发

    组合调用”前端开发专家”+”后端架构师”+”增长黑客”+”快速原型开发师”+”质量校验员”,全链路覆盖从架构设计、代码开发、用户增长到上线质量校验的流程。一个开发者配上这套智能体团队,可以在极短时间内完成过去需要5-8人的工作量。

    场景二:全渠道营销活动上线

    组合调用”内容创作者”+”Twitter运营专家”+”Instagram内容策划”+”Reddit社区运营”+”数据报表分析师”,多平台协同运营,每个平台都有对应的专业策略。避免了用一套话术通发所有平台导致的效果不佳问题。

    场景三:企业级功能迭代

    组合调用”高级项目经理”+”资深开发工程师”+”UI设计师”+”A/B测试跟踪员”+”质量校验员”,符合企业级交付标准,有完整的流程管控和质量门禁,保证交付稳定性。

    💡 推荐理由

    这个项目最打动我的一点是:它把”如何让AI更好地工作”这个问题,转化成了”如何给AI写一份好的岗位说明书”。我们平时用AI编程工具,最大的痛点不是模型能力不足,而是不知道怎么让AI按照专业标准交付

    agency-agents 的价值在于,它把各个领域专家的工作方式、思考逻辑、交付标准都结构化了,然后打包成可以直接给AI读取的Markdown文件。你不需要懂Prompt工程,只需要”激活前端开发专家”,AI就会自动按照前端专家的工作流来帮你。

    另一个亮点是它的人格化设计。很多AI角色定义都是冷冰冰的指令,但这里的每个智能体都有独特的性格。比如”证据收集员”会主动找茬,”趣味注入者”会在合适的地方加彩蛋。这让AI的回复不再是机器式的套话,而是有个人风格的专业输出。

    对于独立开发者或者小团队来说,这个项目基本上等于免费雇了一整个专家团队。前端、后端、设计、营销、项目管理——只要你能想到的角色,这里都有。而且因为是开源的,你还可以根据自己的需求定制每个角色的性格和工作方式。

    📥 下载地址

    支持Claude Code、Cursor、Aider、Windsurf、GitHub Copilot、Gemini CLI等17种AI工具,开箱即用。

  • GPT-SoVITS:58.3K Stars!AI语音克隆神器,1分钟音频定制你的声音

    GPT-SoVITS:58.3K Stars!AI语音克隆神器,1分钟音频定制你的声音

    想不想用自己的声音来朗读文章?或者让AI用你喜欢的角色声音来配音?以前这需要专业的录音设备和昂贵的软件,现在有了GPT-SoVITS,只需要1分钟的训练音频,就能训练出效果惊人的AI语音模型。

    项目简介

    GPT-SoVITS 是一个开源的少样本语音合成与转换工具,核心亮点是极低的训练数据需求——仅需1分钟语音数据即可训练出效果优异的TTS模型,5秒音频甚至可以直接实现零样本语音合成。项目提供了完整的WebUI工具链,从数据预处理到模型训练、推理部署一站搞定。

    GPT-SoVITS项目示意图
    GPT-SoVITS – AI语音克隆与合成

    安装要求和过程

    环境要求

    • 操作系统:Windows 10/11、Linux、macOS 均支持
    • Python版本:3.8 及以上
    • 显卡:推荐NVIDIA GPU(支持CUDA),也支持CPU推理
    • 内存:至少8GB,推荐16GB以上

    快速安装

    # 克隆仓库
    git clone https://github.com/RVC-Boss/GPT-SoVITS.git
    cd GPT-SoVITS
    
    # 安装依赖(推荐使用conda新环境)
    pip install -r requirements.txt
    
    # 启动WebUI
    python webui.py
    
    # Docker部署方式
    docker build -t gpt-sovits .
    docker run -p 7860:7860 gpt-sovits
    

    核心功能

    1. 零样本TTS:仅需5秒目标音色音频,无需训练即可直接合成该音色的语音,适合快速体验。
    2. 少样本微调:使用1分钟训练数据微调模型,合成语音的音色相似度和自然度大幅提升,媲美真人录音。
    3. 跨语言推理:训练集语言与推理文本语言可以不同,目前支持中文、英文、日语、韩语、粤语五种语言。
    4. 一体化WebUI工具集:内置人声/伴奏分离、训练集自动分割、中文语音识别(ASR)、文本标注等工具,降低新手使用门槛。
    5. 多版本持续优化:已迭代至V4/V2Pro版本,预训练数据扩展到5000+小时,音质、推理速度、硬件兼容性全面提升。

    典型使用场景

    • 内容创作配音:UP主、播客创作者可以用自己喜欢的声音来配音,不需要反复录音,修改文案后重新合成即可,大幅降低内容制作成本。
    • 有声书和语音助手:用特定音色批量合成有声书内容,或者为智能助手定制专属声音,提升用户体验和产品辨识度。
    • 语言学习辅助:跨语言推理功能让学习者可以听到用目标语言发音的标准音色,对语言学习和发音矫正很有帮助。

    推荐理由

    这个项目最让我印象深刻的是它的低数据需求设计。传统TTS模型训练动辄需要几小时甚至几十小时的录音数据,普通人根本没法准备。GPT-SoVITS把门槛降到了1分钟,这意味着几乎任何人都能训练自己的TTS模型。

    另外它的WebUI工具链设计非常贴心,从数据预处理到模型训练再到推理,每个环节都有可视化工具支持,不需要写代码就能完成整个流程。对于非技术用户来说,这种”开箱即用”的体验非常重要。

    目前项目在GitHub上有5.8万+ Stars,社区非常活跃,问题和PR响应速度快,中文文档齐全,是国内开源AI项目的优秀代表。如果你对AI语音感兴趣,这个项目绝对值得深入研究。

    下载地址

    (本文由AI自动整理发布,如有问题欢迎在评论区反馈。)

  • BabyAGI:22.3K Stars!任务驱动自主AI智能体,让AI学会自己拆解目标

    BabyAGI:22.3K Stars!任务驱动自主AI智能体,让AI学会自己拆解目标

    BabyAGI 项目封面

    📌 项目简介

    BabyAGI 是一个实验性的任务驱动自主AI智能体框架,由 Yohei Nakajima 于 2023 年发布,开创了让 AI 自主拆解任务、循环执行的先河。它用极简的 Python 代码展示了 AGI(通用人工智能)的雏形,是整个自主智能体领域的鼻祖级项目

    🔧 安装要求和过程

    环境要求

    • Python 3.9+
    • OpenAI API Key(或兼容 API)
    • pip 包管理器

    快速安装

    # 方式一:使用 pip 安装(推荐)
    pip install babyagi
    
    # 方式二:克隆仓库
    git clone https://github.com/yoheinakajima/babyagi.git
    cd babyagi
    pip install -r requirements.txt
    
    # 配置环境变量
    export OPENAI_API_KEY="your-api-key-here"
    export OBJECTIVE="Solve world hunger"  # 设置任务目标
    
    # 运行
    python main.py

    Docker 部署

    docker build -t babyagi .
    docker run -e OPENAI_API_KEY=your_key -e OBJECTIVE="your objective" babyagi

    ⚡ 核心功能

    🎯 自主任务拆解

    自动将大目标拆解为可执行的小任务,无需人工干预,持续循环执行直到目标完成。

    🧠 长期记忆机制

    通过 Pinecone 向量数据库存储和检索历史任务信息,让 AI 拥有”记忆”,避免重复劳动。

    🔄 任务优先级排序

    自动评估任务列表,根据目标智能排序执行优先级,确保最重要的任务优先完成。

    📊 functionz 函数框架

    内置全新的函数管理框架,支持函数注册、依赖追踪、密钥管理和自动执行,是项目的核心引擎。

    🖥️ 可视化 Dashboard

    配套 Web 管理面板,实时查看函数执行状态、依赖关系、密钥配置和完整执行日志。

    🏗️ 自构建能力

    实验性 self_build 功能,让 AI 根据用户需求自动生成新函数,实现智能体的自我扩展。

    🚀 典型使用场景

    场景一:自动化研究助手

    设定目标”研究并总结 Transformer 架构的最新进展”,BabyAGI 会自动拆解任务:搜索论文 → 阅读摘要 → 提取要点 → 生成总结报告。整个过程无需人工干预,是研究员和学生的效率神器。

    场景二:代码自动生成与执行

    通过 functionz 框架,让 BabyAGI 自动生成解决特定问题的 Python 函数,并注册到系统中供后续调用。配合 self_build 功能,AI 可以根据新需求动态扩展自己的能力边界。

    场景三:多步骤任务自动化

    设定目标”每天早上 9 点抓取 Hacker News 首页前 10 条内容并发送到我的邮箱”,BabyAGI 会拆解任务、编写爬虫函数、配置定时执行,真正实现”设定一次,自动运行”。

    💡 推荐理由

    BabyAGI 是整个 AI Agent 自主智能体浪潮的开山之作。2023 年 4 月,Yohei Nakajima 用不到 200 行 Python 代码,向全世界展示了 AI 可以自主拆解任务、循环执行、不断逼近目标——这个 Demo 直接催生了 AutoGPT、AgentGPT 等后续数百个自主智能体项目。

    虽然项目作者明确表示”不适合生产环境”,但它作为学习自主智能体原理的教科书级案例,价值无可替代。如果你想理解 AI Agent 是怎么”思考”的,读一遍 BabyAGI 的源码,比看十篇论文都管用。

    新一代 BabyAGI(基于 functionz 框架)更进一步,引入了函数管理、依赖追踪、自构建等生产级概念,为自主智能体的工程化落地提供了宝贵思路。⭐ 历史地位 + 学习价值,强烈推荐给每一位 AI 开发者!

    ⭐ 如果你觉得这个项目有用,请在 GitHub 上给它一个 Star!

    标签:AI Agent自主智能体开源