标签: RAGFlow

  • RAGFlow:基于深度文档理解的开源RAG引擎,让AI精准理解你的文档

    RAGFlow Logo

    ## 📖 项目简介

    **RAGFlow** 是一款基于**深度文档理解(DeepDoc)**的开源 RAG(检索增强生成)引擎。它能够结合大语言模型(LLM),从各种复杂格式的数据中精准提取知识,为 AI 应用提供可靠的问答能力。无论你是个人开发者还是企业团队,RAGFlow 都能帮你构建专属的知识库问答系统。

    **GitHub Star:** 81k+ ⭐
    **最新版本:** v0.25.5 (2026年5月)
    **开源协议:** Apache-2.0

    ## 🔧 安装要求和过程

    ### 环境要求

    | 环境项 | 最低配置 |
    |——–|———-|
    | **CPU** | ≥ 4核 |
    | **内存** | ≥ 16 GB |
    | **磁盘** | ≥ 50 GB |
    | **Docker版本** | ≥ 24.0.0 |
    | **Docker Compose** | ≥ v2.26.1 |

    **⚠️ 重要:** 需确保系统参数 `vm.max_map_count` ≥ 262144

    “`bash
    # 临时生效
    sudo sysctl -w vm.max_map_count=262144

    # 永久生效
    echo “vm.max_map_count=262144” >> /etc/sysctl.conf
    “`

    ### 快速安装(Docker部署)

    **1. 克隆仓库**
    “`bash
    git clone https://github.com/infiniflow/ragflow.git
    cd ragflow/docker
    “`

    **2. 启动服务(CPU版本)**
    “`bash
    docker compose -f docker-compose.yml up -d
    “`

    **3. 访问服务**
    服务启动后,浏览器访问 `http://服务器IP地址`(默认端口80)

    **4. 配置LLM**
    在 `service_conf.yaml.template` 中配置你使用的LLM厂商和对应的API_KEY

    **💡 提示:** 如需GPU加速,修改 `.env` 文件设置 `DEVICE=gpu`

    ## ⚡ 核心功能

    ### 1️⃣ 高质量数据处理
    基于**深度文档理解(DeepDoc)**技术,从格式复杂的非结构化数据中提取知识,支持Word、PPT、Excel、TXT、图片、扫描件、网页等多种异构数据源。

    ### 2️⃣ 智能分块与可视化
    提供丰富的模板化分块选项,分块逻辑可解释、可调整。支持分块可视化,允许用户人工干预优化,确保知识切分的精准性。

    ### 3️⃣ 降低幻觉,可追溯来源
    回答附带**可追溯的引用来源**,支持查看关键参考信息。可视化展示文本分块逻辑,大幅提升结果可信度。

    ### 4️⃣ 自动化RAG工作流
    适配个人和大型企业的RAG编排需求,支持自定义配置LLM和嵌入模型,支持多路召回+融合重排,提供直观的API,可无缝集成到业务系统中。

    ### 5️⃣ Agent能力与生态集成
    支持**Agent工作流**、**MCP协议**、**记忆(Memory)功能**。最新版本已支持 DeepSeek v4、Gemini 3 Pro、GPT-5 系列模型,并支持 Confluence、Notion、Discord、Google Drive 等数据源同步。

    ## 🎯 典型使用场景

    ### 场景1:企业知识库问答
    **问题:** 企业内部文档分散,员工查找信息困难
    **解决方案:** 使用 RAGFlow 构建统一知识库,上传公司文档、手册、规范,员工通过自然语言提问即可快速获取准确答案,并附带原文引用。

    ### 场景2:技术文档智能检索
    **问题:** 技术文档篇幅长,开发者难以快速定位关键信息
    **解决方案:** 将 API 文档、开发手册导入 RAGFlow,结合 LLM 实现智能问答,开发者可以直接询问”如何在XXX中实现YYY功能”,系统会返回精准的代码段和说明。

    ### 场景3:个人学习笔记管理
    **问题:** 学习资料繁多,复习时难以高效检索
    **解决方案:** 将课程笔记、论文、书籍导入 RAGFlow,构建个人知识助手,随时提问巩固知识点,实现智能化学习。

    ## 💡 推荐理由

    作为一名 AI 开发者和内容创作者,我为什么强烈推荐 RAGFlow?

    **1. 真正理解复杂文档**
    不同于简单的文本切片,RAGFlow 的**深度文档理解**能力可以识别表格、公式、多栏布局等复杂结构,这在处理技术文档和学术论文时特别有用。

    **2. 可视化的分块调试**
    很多 RAG 系统的痛点是”黑盒分块”,你不知道文档是怎么被切分的。RAGFlow 提供**分块可视化**,让你可以直观看到知识切分效果,并手动调整,这大大提升了问答质量。

    **3. 开源且活跃**
    81k+ Star,Apache-2.0 协议,社区非常活跃。相比闭源的商业 RAG 服务,你可以完全掌控数据安全,也能根据需求定制功能。

    **4. 完整的 Agent 能力**
    最新版本支持 Agent 工作流和记忆功能,不仅能回答问题,还能执行复杂任务,比如”帮我总结本周所有文档的更新内容”。

    **5. 部署简单**
    一条 `docker compose` 命令就能跑起来,对新手非常友好。同时也支持源码部署,方便深度定制。

    ## 📥 下载地址

    – **GitHub 仓库:** https://github.com/infiniflow/ragflow
    – **官方网站:** https://ragflow.io
    – **云服务入口:** https://cloud.ragflow.io
    – **官方文档:** https://ragflow.io/docs/dev/
    – **中文文档:** https://ragflow.com.cn/docs
    – **Discord 社区:** https://discord.gg/NjYzJD3GM3

    ## 🏷️ 相关标签

    `RAG` `RAGFlow` `AI` `LLM` `AI Agent` `开源项目` `知识库` `检索增强生成`

    **📌 系列文章:** 本文是”GitHub热门AI开源项目介绍”系列的第10期。欢迎关注我的博客,获取更多 AI 开源项目的深度介绍!

  • RAGFlow:80.8k Stars!开源RAG引擎,让AI精准理解你的文档

    RAGFlow:80.8k Stars!开源RAG引擎,让AI精准理解你的文档

    📚 RAGFlow
    80.8k Stars!开源RAG引擎,让AI精准理解你的文档
    ⭐ 80.8k Stars
    🔧 RAG引擎
    📄 深度文档理解

    💡 项目简介

    RAGFlow 是一款基于深度文档理解构建的开源 RAG(检索增强生成)引擎,由 InfiniFlow 团队开发。它可以为各种规模的企业及个人提供一套精简的 RAG 工作流,把”大模型+企业知识库”的门槛直接干到地面。

    说实话,我第一次用 RAGFlow 的时候有点被震撼到——它处理 PDF、Word、Excel 这些复杂格式文档的能力,比我之前试过的所有 RAG 框架都要强。关键是它有可视化分块界面,你能看到每个文本块是怎么切的,哪里出了问题直接改,不用盲目调参。

    🚀 核心功能
    📑 深度文档理解
    支持 PDF、Word、Excel、PPT、图片、扫描件等复杂格式,能从非结构化数据中提取精准知识。表格、图表、多栏布局都能正确解析,真正做到了”看懂”文档。

    🔍 高质量RAG管道
    内置多路召回 + 融合重排,支持可视化文本分块,生成结果附带可追溯的引用来源。不再出现”幻觉”回答,每个答案都有据可依。

    🤖 Agent + MCP 支持
    内置 Agent 工作流,支持 MCP 协议接入,可对接 OpenClaw 等 AI Agent 平台。还能接入 Confluence、Notion、Google Drive 等数据源,一键同步知识库。

    🔧 多种部署方式
    支持 Docker 一键部署(推荐),也支持源码启动。兼容 DeepSeek v4、Gemini 3 Pro、GPT-5 系列等主流大模型,自带 embedding 模型。

    ⚙️ 安装要求与过程
    环境要求
    • CPU ≥ 4核
    • 内存 ≥ 16 GB
    • 磁盘 ≥ 50 GB
    • Docker ≥ 24.0.0 & Docker Compose ≥ v2.26.1
    • 系统参数要求:vm.max_map_count ≥ 262144

    # 1. 克隆仓库
    git clone https://github.com/infiniflow/ragflow.git
    cd ragflow/docker

    # 2. 启动服务(CPU版)
    docker compose -f docker-compose.yml up -d

    # 3. 查看日志确认启动成功
    docker logs -f docker-ragflow-cpu-1

    # 4. 浏览器访问 http://服务器IP
    # 出现 Running on all addresses 即成功!

    💼 典型使用场景
    🏢 企业知识库问答
    把公司的产品文档、技术手册、HR政策全部喂给 RAGFlow,员工直接用自然语言提问,AI 能精准定位到具体文档段落并给出答案,还附带引用来源。比传统关键词搜索强太多了。

    📚 个人学习助手
    上传教材、论文、技术书籍,让 AI 帮你梳理知识点、回答思考题。RAGFlow 对 PDF 的解析特别到位,公式、表格、图表都能正确识别,学习效率高了不少。

    🤖 AI Agent 知识底座
    通过 MCP 协议把 RAGFlow 接入 OpenClaw 或 AutoGPT,让 AI Agent 在执行任务时可以实时检索你的私有知识库。相当于给 Agent 装了一个”外挂大脑”。

    🌟 推荐理由

    我觉得 RAGFlow 最打动我的一点,是它把”可视化”做到了极致。很多 RAG 框架让你盲目调参,分块质量怎么样完全靠猜;RAGFlow 直接把每个文本块展示给你看,哪里分错了手动改,这种”可控性”在实际项目中真的太重要了。

    另外它的文档解析能力确实一流,我试过把一本 500 页的技术书丢进去,公式、代码块、表格全都识别对了,召回准确率相当能打。如果你正在搭建企业知识库或者给 AI Agent 接知识底座,RAGFlow 绝对值得一试。⭐

    📌 本文由 AI 自动采集整理,更多开源项目介绍持续更新中…

    Tags: RAGFlow · RAG · 知识库 · 开源AI