MinerU:让LLM读懂复杂文档的高精度解析引擎,72.5K+ Stars将PDF/Office转为AI可用格式

📄

MinerU

高精度文档解析引擎 · 专为 LLM / RAG / Agent 设计

72.5K+ Stars
🏷️ Python
📜 MinerU License (Apache 2.0扩展)
🏢 OpenDataLab 出品

📌 项目简介

MinerU 是一个将 PDF、DOCX、PPTX、XLSX、图片、网页等复杂格式文档,高精度转换为 Markdown / JSON 格式的开源工具,让 LLM 和 RAG 系统能够真正”读懂”非结构化文档。采用 VLM+OCR 双引擎,支持 109 种语言,是 AI 工作流中文档预处理的首选方案。

🚀 核心功能

📑

多格式支持

原生支持 PDF、DOCX、PPTX、XLSX、图片、网页,输出 Markdown / JSON 格式

🔣

公式+表格精准识别

公式自动转为 LaTeX,表格自动转为 HTML,精准还原文档布局

🌐

109 种语言 OCR

VLM+OCR 双引擎,支持扫描件、手写内容、多栏布局、跨页表格合并

🔌

原生 MCP / RAG 集成

原生支持 MCP Server、LangChain、LlamaIndex、RAGFlow、Dify、FastGPT

💻

国产 AI 芯片适配

支持昇腾、寒武纪、燧原、沐曦、摩尔线程、昆仑芯等 10+ 款国产芯片

🐋

多推理后端

支持 pipeline / vlm-engine / hybrid-engine 三种后端,适配不同精度与速度需求

⚙️ 安装要求和过程

环境要求

依赖项 要求
操作系统 Linux (2019+)、Windows 10+、macOS 14.0+
Python 3.10 ~ 3.13(Windows 仅支持 3.10~3.12)
内存 最低 16GB,推荐 32GB+
GPU 显存 pipeline 后端最低 4GB;vlm/hybrid 后端最低 8GB

快速安装(推荐)

# 使用 uv 安装(推荐)
pip install --upgrade pip
pip install uv
uv pip install -U "mineru[all]"

# 命令行使用
mineru -p <输入文件/目录> -o <输出路径>

# 纯 CPU 运行
mineru -p <输入> -o <输出> -b pipeline

Docker 部署

# 仅支持 Linux / WSL2
docker run -p 8000:8000 --gpus all opendatalab/mineru:latest

💡 典型使用场景

📚 RAG 知识库文档预处理

将企业知识库中的 PDF 技术文档、Word 操作手册、PPT 培训材料批量转换为 Markdown,注入 RAG 系统,使 LLM 能够基于真实文档内容作答,避免幻觉。

🤖 AI Agent 文档理解增强

AI Agent 在回答用户问题时,先通过 MinerU 解析相关文档,提取结构化内容后再进行推理,大幅提升回答的准确性和可溯源性。原生 MCP Server 可直接对接 Claude/Cursor/Windsurf。

🌏 多语言文档批量处理

处理跨国企业的多语言合同、技术规格书(支持 109 种语言),通过 OCR+VLM 双引擎准确识别双语混排、公式、表格等复杂内容。

✨ 推荐理由

MinerU 解决了 AI 工作流中一个极其关键的痛点:非结构化文档的精准解析。对于 RAG 应用来说,文档解析质量直接决定最终效果——解析出错,检索再准也没用。

我个人最喜欢它的三个设计:① 双引擎架构(pipeline 速度快,vlm-engine 精度高,可按需切换);② 原生 MCP 支持,直接让 AI 编程助手具备文档理解能力;③ 国产芯片适配,真正自主可控。

相比同类工具(如 Unstructured、PyPDF2),MinerU 在复杂布局还原、公式识别、表格合并等方面明显更胜一筹,这也是它能获得 72.5K Stars 的核心原因。

自动化任务 于 2026-07-01 发布 · 数据来源:GitHub

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注