RAGFlow:83K+ Stars 的开源 RAG 引擎,为 LLM 打造卓越上下文层

📌 项目简介

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,由 InfiniFlow 团队(Milvus 向量数据库原班人马)开发,将前沿 RAG 技术与 Agent 能力深度融合,为大语言模型提供卓越的上下文理解层。

RAGFlow 架构图

RAGFlow 系统架构概览


⚙️ 安装要求和过程

环境要求(自托管)

配置项 最低要求
CPU ≥ 4 核
内存 ≥ 16 GB
磁盘 ≥ 50 GB
Docker ≥ 24.0.0
Docker Compose ≥ v2.26.1

🐳 Docker 快速部署(推荐)

# 1. 调整系统内核参数(避免 Elasticsearch 启动失败)
sudo sysctl -w vm.max_map_count=262144

# 2. 克隆项目代码
git clone https://github.com/infiniflow/ragflow.git
cd ragflow/docker

# 3. 切换到稳定版本
git checkout v0.26.1

# 4. 启动服务(仅CPU)
docker compose -f docker-compose.yml up -d

# (可选)如需GPU加速,先执行:
# sed -i '1i DEVICE=gpu' .env
# docker compose -f docker-compose.yml up -d

# 5. 验证服务状态
docker logs -f docker-ragflow-cpu-1

启动成功后,浏览器访问服务器 IP 地址(默认 HTTP 端口 80)即可进入 RAGFlow 登录页面。

💻 源码启动(开发用途)

# 安装依赖工具
pipx install uv pre-commit

# 克隆代码
git clone https://github.com/infiniflow/ragflow.git
cd ragflow/
uv sync --python 3.13
uv run python3 download_deps.py

# 启动基础依赖服务
docker compose -f docker/docker-compose-base.yml up -d

# 启动后端
source .venv/bin/activate
export PYTHONPATH=$(pwd)
bash docker/launch_backend_service.sh

# 启动前端(新终端)
cd web && npm install && npm run dev

✨ 核心功能

1. 深度文档理解,输入即精准

基于先进的文档解析技术,可从格式复杂的非结构化数据(PDF、Word、PPT、Excel、扫描件、图片等)中精准提取知识,真正做到”Quality in, Quality out”。

2. 可视化模板化分块,答案可追溯

分块逻辑智能可解释,提供大量预置分块模板;支持文本分块可视化,允许人工干预调整;最终答案附带可追溯的引用来源,有效降低 LLM 幻觉问题。

3. 多源数据兼容,异构数据统一管理

支持解析 Word、PPT、Excel、TXT、图片、扫描件、结构化数据、网页等各类异构数据源,一站式完成企业知识库构建。

4. Agentic 工作流 + MCP 协议支持

内置丰富 Agent 能力,支持 Agentic 工作流编排、MCP 协议接入;内置 Python/JavaScript 代码执行器组件;支持 AI Agent 记忆功能。

5. 高精度混合检索,多路召回+融合重排

结合向量搜索、BM25 关键词搜索和自定义评分机制,配合先进重排序算法,提供无与伦比的回答准确性和上下文相关性。


🚀 典型使用场景

📈 股权投资研究

自动化收集公司数据,整合财务指标与研究洞察。通过自主规划和多智能体编排,实现高级股票分析。自动从用户查询中识别股票代码,聚合外部权威来源和内部记录中的洞察,最终结合定性洞察和财务指标生成完整投资报告。

⚖️ 法律判例分析

通过检查公共来源和内部数据集中的类似法律案例,提供结构化判例分析。自动提取关键属性(如司法管辖区和法律问题)以制定搜索查询并检索可比较的先例,最终整合成结构化分析报告。

🏭 制造业维护支持

通过从内部手册中准确获取内容,提供结构化维护指导(外部参考作为补充支持)。输入任务后,工作流首先验证输入充分性,然后从内部维护手册中提取标准协议,整合补充外部技术数据,生成清晰的执行指令。


💡 推荐理由

RAGFlow 是我用过的最”务实”的 RAG 产品,没有之一。

第一,它真正解决了 RAG 的底层痛点——文档解析。很多 RAG 框架只关注向量检索和生成,却忽略了最关键的”输入质量”问题。RAGFlow 的 DeepDoc 技术能精准解析复杂格式的 PDF、扫描件,真正做到”Garbage in, garbage out”的反面——Quality in, quality out

第二,可视化分块 + 可追溯引用,让 AI 回答有章可循。这是企业场景的刚需。你可以清楚看到每个答案是从哪个文档的哪个位置来的,大幅降低了 LLM 幻觉带来的风险。

第三,Agentic 能力的融合非常自然。不是简单地在 RAG 上面套一个 Agent 外壳,而是将 Agent 能力(MCP 协议、代码执行、记忆管理)深度集成到 RAG 工作流中,真正实现了”RAG + Agent”的一体化编排。

最后,InfiniFlow 团队是 Milvus 的原班人马,技术底蕴深厚。83K+ Stars 和 9600+ Forks 的社区活跃度也证明了产品的成熟度。如果你正在构建企业级知识库或 RAG 应用,RAGFlow 绝对值得一试。


📥 下载地址

🌐 官方网站:https://ragflow.io

📦 GitHub 开源地址:https://github.com/infiniflow/ragflow ⭐ 83K+ Stars

☁️ 云服务(快速体验):https://cloud.ragflow.io

📚 官方文档:https://ragflow.io/docs/dev/

💡 小贴士:RAGFlow 支持飞书、Discord、Telegram、Line 等多聊天渠道接入(2026年6月更新),可快速将企业知识库接入到日常沟通工具中!

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注