标签: 检索增强

  • ChatGPT Retrieval Plugin:20k+ Stars!RAG鼻祖项目,让ChatGPT拥有外部知识

    ChatGPT Retrieval Plugin:20k+ Stars!RAG鼻祖项目,让ChatGPT拥有外部知识

    📦 项目简介

    chatgpt-retrieval-plugin 是 OpenAI 官方开源的 ChatGPT 检索插件模板,它是 RAG(检索增强生成) 领域的鼻祖级项目,让 ChatGPT 能够访问自定义数据源。

    这个项目展示了如何让大模型动态访问外部知识库,而不是仅仅依赖训练数据。它是现在所有 RAG 应用的”祖师爷”。

    ⚙️ 安装要求和过程

    环境要求

    • Python:3.8+(推荐 3.10+)
    • 向量数据库:Pinecone / Weaviate / Qdrant(任选其一)
    • OpenAI API Key:必需(用于 Embedding 和 ChatGPT)
    • 内存:建议 8GB+(本地测试可降级)

    快速安装步骤

    # 1. 克隆项目
    git clone https://github.com/openai/chatgpt-retrieval-plugin.git
    cd chatgpt-retrieval-plugin
    
    # 2. 安装依赖
    pip install -r requirements.txt
    
    # 3. 配置环境变量
    cp .env.example .env
    # 编辑 .env,填入你的 OpenAI API Key 和向量数据库配置
    
    # 4. 构建向量索引
    python scripts/process_docs.py
    
    # 5. 启动服务
    uvicorn server.main:app --reload --port 8000
    

    安装完成后,在 ChatGPT Plugins 模式中添加本地插件,指向 http://localhost:8000 即可。

    🔥 核心功能

    1. 向量检索(核心能力)

    将文档切片后转化为向量,存储到 Pinecone 等向量数据库。用户提问时,系统自动检索最相关的文档片段,注入到 ChatGPT 的上下文中。

    2. 递归爬取(数据接入)

    内置 scripts/process_docs.py 支持递归爬取网站内容(基于 BeautifulSoup),自动处理 HTML、PDF、Markdown 等多种格式。

    3. 元数据过滤(精准召回)

    支持为文档添加元数据标签(来源、日期、作者等),检索时可根据元数据进行过滤,大幅提升召回精准度。

    4. 插件标准接口(OpenAI 官方规范)

    严格遵循 OpenAI Plugin 规范(/.well-known/ai-plugin.json/openapi.yaml),可作为开发自定义 ChatGPT 插件的参考模板。

    💡 典型使用场景

    场景一:企业知识库问答

    将公司内部文档(产品手册、API 文档、HR 政策)向量化后接入 ChatGPT,员工可以直接用自然语言查询,比如”我们公司的报销流程是什么?”,ChatGPT 会从知识库中精准召回答案。

    价值:替代传统关键词搜索,问答准确率提升 60%+。

    场景二:技术文档助手

    开源项目维护者可以将项目文档(README、Wiki、Issue 解答)接入插件,用户在使用 ChatGPT 时可以直接获得项目相关的准确回答,而不用担心模型产生幻觉。

    价值:降低开源项目的使用门槛,减少重复解答。

    🌟 推荐理由

    这个项目最大的价值不在于代码本身(实际上代码量并不大),而在于它 定义了 RAG 的标准范式

    1. 文档切片 → Embedding → 向量存储 → 检索召回 → 注入上下文 → 生成回答,这条链路现在是业界标配。
    2. 如果你想做知识库问答、企业 AI 助手、文档 Copilot,这个项目是最好的起点。
    3. 虽然 OpenAI 后来推出了 Assistants APIGPTs,底层逻辑依然和这个插件一脉相承。

    值得一提的是,现在很多热门项目(RAGFlow、AnythingLLM、Dify 的知识库功能)都能看到这个项目的影子。可以说,它是 RAG 应用的”黄埔军校”。

    📥 下载地址

    如果你正在做知识库问答或者企业 AI 助手,这个项目值得深入研究。它不仅是 RAG 的鼻祖,更是理解大模型如何”连接外部知识”的最佳教材。