MinerU
高精度文档解析引擎 · 专为 LLM / RAG / Agent 设计
🏷️ Python
📜 MinerU License (Apache 2.0扩展)
🏢 OpenDataLab 出品
📌 项目简介
MinerU 是一个将 PDF、DOCX、PPTX、XLSX、图片、网页等复杂格式文档,高精度转换为 Markdown / JSON 格式的开源工具,让 LLM 和 RAG 系统能够真正”读懂”非结构化文档。采用 VLM+OCR 双引擎,支持 109 种语言,是 AI 工作流中文档预处理的首选方案。
🚀 核心功能
多格式支持
原生支持 PDF、DOCX、PPTX、XLSX、图片、网页,输出 Markdown / JSON 格式
公式+表格精准识别
公式自动转为 LaTeX,表格自动转为 HTML,精准还原文档布局
109 种语言 OCR
VLM+OCR 双引擎,支持扫描件、手写内容、多栏布局、跨页表格合并
原生 MCP / RAG 集成
原生支持 MCP Server、LangChain、LlamaIndex、RAGFlow、Dify、FastGPT
国产 AI 芯片适配
支持昇腾、寒武纪、燧原、沐曦、摩尔线程、昆仑芯等 10+ 款国产芯片
多推理后端
支持 pipeline / vlm-engine / hybrid-engine 三种后端,适配不同精度与速度需求
⚙️ 安装要求和过程
环境要求
| 依赖项 | 要求 |
|---|---|
| 操作系统 | Linux (2019+)、Windows 10+、macOS 14.0+ |
| Python | 3.10 ~ 3.13(Windows 仅支持 3.10~3.12) |
| 内存 | 最低 16GB,推荐 32GB+ |
| GPU 显存 | pipeline 后端最低 4GB;vlm/hybrid 后端最低 8GB |
快速安装(推荐)
# 使用 uv 安装(推荐)
pip install --upgrade pip
pip install uv
uv pip install -U "mineru[all]"
# 命令行使用
mineru -p <输入文件/目录> -o <输出路径>
# 纯 CPU 运行
mineru -p <输入> -o <输出> -b pipeline
Docker 部署
# 仅支持 Linux / WSL2
docker run -p 8000:8000 --gpus all opendatalab/mineru:latest
💡 典型使用场景
📚 RAG 知识库文档预处理
将企业知识库中的 PDF 技术文档、Word 操作手册、PPT 培训材料批量转换为 Markdown,注入 RAG 系统,使 LLM 能够基于真实文档内容作答,避免幻觉。
🤖 AI Agent 文档理解增强
AI Agent 在回答用户问题时,先通过 MinerU 解析相关文档,提取结构化内容后再进行推理,大幅提升回答的准确性和可溯源性。原生 MCP Server 可直接对接 Claude/Cursor/Windsurf。
🌏 多语言文档批量处理
处理跨国企业的多语言合同、技术规格书(支持 109 种语言),通过 OCR+VLM 双引擎准确识别双语混排、公式、表格等复杂内容。
✨ 推荐理由
MinerU 解决了 AI 工作流中一个极其关键的痛点:非结构化文档的精准解析。对于 RAG 应用来说,文档解析质量直接决定最终效果——解析出错,检索再准也没用。
我个人最喜欢它的三个设计:① 双引擎架构(pipeline 速度快,vlm-engine 精度高,可按需切换);② 原生 MCP 支持,直接让 AI 编程助手具备文档理解能力;③ 国产芯片适配,真正自主可控。
相比同类工具(如 Unstructured、PyPDF2),MinerU 在复杂布局还原、公式识别、表格合并等方面明显更胜一筹,这也是它能获得 72.5K Stars 的核心原因。
📥 下载地址
由 自动化任务 于 2026-07-01 发布 · 数据来源:GitHub
