标签： Docker

【开源推荐】Qdrant：32.2K+ Stars！Rust 构建的高性能向量数据库，AI 应用的向量检索引擎
Q

GitHub 热门 AI 开源项目

第 29 期

⭐ 32.2K+ Stars

Qdrant —— 为 AI 应用打造的高性能向量数据库

用 Rust 构建 · 支持稠密/稀疏/多向量 · 生产级分布式部署

📌 项目简介

Qdrant 是一个用 Rust 编写的高性能向量数据库和向量搜索引擎，专为新一代 AI 应用设计。它提供生产级服务与便捷 API，支持存储、搜索和管理带附加载荷的向量，是构建 RAG、语义搜索、推荐系统等 AI 应用的理想数据底座。

32.2K+

GitHub Stars

Rust

核心语言

97%

RAM 节省
⚙️
安装要求和过程

环境要求

Docker 20.10+（推荐方式）

或者：Rust 1.70+ 编译环境（源码安装）

Python 3.8+（使用 Python 客户端时）

支持 Linux / macOS / Windows (WSL2)

快速安装（Docker 方式）

# 1. 拉取并启动 Qdrant（无认证，开发用） docker run -p 6333:6333 qdrant/qdrant # 2. 访问 Web UI open http://localhost:6333/dashboard # 3. 使用 Python 客户端 pip install qdrant-client
# 4. 源码编译安装（可选） git clone https://github.com/qdrant/qdrant.git cd qdrant && cargo build --release

生产部署建议

务必配置 API Key 认证（参考官方安全指南）

使用持久化卷存储向量数据（-v $(pwd)/qdrant_storage:/qdrant/storage）

大规模场景启用分布式模式（需要 etcd / 类似协调服务）

启用 TLS 加密传输
⚡
核心功能

🔍 多类型向量搜索

同时支持稠密向量（语义相似度）、稀疏向量（全文搜索）、多向量（ColBERT 等延迟交互模型）搜索，一套系统满足多种检索需求。

🎯 强大的载荷过滤

为向量附加任意 JSON 载荷，支持关键词匹配、全文检索、数值范围、地理位置等丰富条件过滤，支持 should / must / must_not 条件组合，精准控制搜索范围。

🔀 混合搜索

单查询可组合多个向量，兼顾语义理解和关键词精度，支持倒数排名融合（RRF）、基于分布的分数融合（DBSF）等可配置融合策略，搜索效果更佳。

💾 低成本存储优化

内置向量量化能力，可降低最高 97% 的 RAM 占用；支持在搜索速度和精度之间按需权衡；同时支持磁盘存储，大幅降低运行成本。

🚀 分布式高可用

支持水平扩展，通过分片和副本实现高可用，可零停机更新或调整集合大小；支持 SIMD 硬件加速和 NVIDIA/AMD GPU 加速索引，性能卓越。

💡
典型使用场景

📚 场景一：RAG 知识库问答

将文档切片向量化后存入 Qdrant，用户提问时先检索最相关的片段，再送给 LLM 生成答案。Qdrant 的混合搜索和载荷过滤能力，让 RAG 系统既能理解语义，又能精确控制知识范围，是目前最流行的 AI 应用架构之一。

🛒 场景二：电商语义搜索与推荐

用户搜索”适合夏天透气的跑步鞋”，传统关键词搜索无法理解意图，而 Qdrant 的语义向量搜索能直接找到最相关的商品。再结合用户行为向量做个性化推荐，可大幅提升转化率和用户体验。

🖼️ 场景三：图像/音频相似检索

通过 CLIP 等多模态模型将图片/音频编码为向量，存入 Qdrant 后便可实现”以图搜图”、”相似音乐推荐”等功能。短视频平台、版权图库、人脸检索等场景均有广泛应用。

💬 推荐理由

如果你正在构建任何需要”理解语义”的 AI 应用，Qdrant 几乎是不二之选。作为向量数据库赛道的明星项目，它用 Rust 编写，性能和安全都有保障；API 设计简洁直观，Python 客户端几分钟就能上手；最关键的是，它不只是”能跑”，而是真正为生产环境设计——分布式、高可用、量化压缩、硬件加速，这些特性在大规模部署时价值巨大。

我个人最喜欢它的混合搜索能力：语义向量 + 关键词 BM25 融合，再结合载荷过滤，搜索结果的质量比单纯向量检索高出一大截。加上活跃的开源社区和 Qdrant Cloud 托管选项，无论个人项目还是企业落地，都能找到合适的接入方式。2026 年做 AI 应用，向量数据库是必选项，Qdrant 值得放在你的技术选型清单首位。

📦 下载地址 & 相关链接

🐙

GitHub 仓库

https://github.com/qdrant/qdrant

⭐ 32.2K →

🌐

官方网站

https://qdrant.tech

访问 →

📖

官方文档（含快速入门）

https://qdrant.tech/documentation/

阅读 →

☁️

Qdrant Cloud（含免费套餐）

https://cloud.qdrant.io

试用 →

🎓

Qdrant Essentials 免费课程

https://qdrant.tech/course/essentials/

学习 →

🔖 标签：AI · GitHub · 开源 · 向量数据库 · RAG · LLM · Rust · 语义搜索

⏱️ 预计阅读时间：6 分钟 | 更新时间：2026年6月14日
2026年6月14日
【开源推荐】Dify：145K+ Stars！开源LLM应用开发平台，可视化构建AI工作流与RAG管道
Dify：145K+ Stars！开源LLM应用开发平台，可视化构建AI工作流
TypeScript + Python 全栈 · Docker 一键部署 · 集成数百款LLM模型

📌 项目简介

Dify 是一款开源的大语言模型（LLM）应用开发平台，由 LangGenius 团队开发，已加入 Linux 基金会。它具备直观的可视化界面，整合了 AI 工作流、RAG 管道、智能体能力、模型管理和可观测性功能，帮助开发者快速完成从原型到生产环境的落地。截至 2026 年 6 月，Dify 在 GitHub 已获得 145,000+ Stars，是全球最受欢迎的 LLM 应用开发框架之一。

145K+

GitHub Stars

50+

内置工具集成

300+

LLM模型支持

Apache-2.0

开源协议

🔧 安装要求和过程

方式一：Docker Compose 部署（推荐，最快5分钟上线）

环境要求：CPU ≥ 2核，内存 ≥ 4GiB，已安装 Docker 和 Docker Compose

# 克隆仓库 git clone https://github.com/langgenius/dify.git cd dify/docker # 复制环境配置 cp .env.example .env # 启动服务（后台运行） docker compose up -d # 访问安装页面 # 浏览器打开 http://localhost/install

启动后访问 http://localhost/install 完成管理员账号初始化，即可开始使用。

方式二：从源码部署（适合开发者定制）

# 后端启动（Python 3.11+） cd api poetry install poetry run flask db upgrade poetry run flask run --host 0.0.0.0 --port 5001 # 前端启动（Node.js 18+） cd web npm install npm run dev

方式三：云服务版（无需部署，立即使用）

直接访问 https://cloud.dify.ai 注册即用，免费版包含 200 次 OpenAI 调用额度。

⚡ 核心功能

🎨 可视化工作流编排

在画布上通过拖拽节点即可构建复杂的 AI 工作流，支持条件分支、循环、变量传递和并行执行。无需编写代码，产品、运营同学也能搭建生产级 AI 应用。

🤖 全模型支持 & RAG 管道

无缝集成 GPT、Claude、Llama3、Mistral、Gemini 等 300+ 专有/开源 LLM，兼容所有 OpenAI API 规范的模型。内置完整的 RAG 管道，支持从 PDF、PPT、Word 等常见文档格式中提取文本并建立知识库。

🛠️ 智能体 + 50+ 内置工具

基于 LLM Function Calling 或 ReAct 模式定义智能体，内置 Google 搜索、DALL·E、Stable Diffusion、WolframAlpha 等 50+ 工具，同时支持自定义工具接入，真正让 AI 能”做事”而不仅仅是”说话”。

📊 Prompt IDE + 可观测性

提供直观的 Prompt 编写和调试界面，支持对比不同模型性能表现。集成 Opik、Langfuse、Arize Phoenix 等可观测性工具，实时追踪 LLM 推理成本、延迟和准确率，让 AI 应用可监控、可优化。

🔌 丰富 API & 生态集成

提供完整的 REST API 和 SDK，支持将 Dify 应用嵌入到自有产品中。同时支持与 LangChain、Semantic Kernel 等框架集成，也可通过 AWS CDK、Terraform、Kubernetes 等方式部署到云端。

💡 典型使用场景

🏢

企业知识库问答

上传公司文档、产品手册、FAQ 建立知识库，构建基于 RAG 的智能客服或内部知识助手，准确回答员工和客户的提问，减少人工客服压力。

🤖

AI 工作流自动化

用可视化画布编排多步骤 AI 任务：自动抓取网页内容 → 提取关键信息 → 调用 LLM 总结 → 发送邮件通知，全程无需写代码，像搭积木一样构建自动化流程。

🚀

快速 AI 产品原型验证

产品团队在几小时内完成 AI 功能原型设计，通过 Dify 的 Playground 实时测试不同模型效果，快速验证产品想法，大幅缩短从创意到落地的周期。

🌟 推荐理由

作为一名开发者，我推荐 Dify 的最大理由是“它把 AI 应用开发从『写代码』变成了『搭积木』”。以前要集成 LLM、做 RAG、写 Agent 逻辑，需要深厚的 Full Stack 和 AI 工程经验；现在用 Dify 的可视化画布，产品、运营甚至非技术同学都能搭建出生产级的 AI 应用。

另一个亮点是私有化部署能力。对于数据敏感的企业用户，Dify 可以完全部署在内部服务器，数据不出企业内网，同时享受和云服务版一样的功能体验。加上它对国产大模型（如通义千问、文心一言、智谱 GLM）的良好支持，在国内落地场景非常有优势。

145K+ Stars 不是偶然。Dify 正在成为 AI 应用时代的”WordPress”——让每个人都能轻松拥有自己的 AI 应用。无论你是个人开发者、创业团队还是大型企业，Dify 都值得一试。

📦 下载地址

🐙 GitHub 仓库
 🌐 官方网站
 📚 官方文档
 ☁️ 云服务版

开源协议：Apache-2.0（附加 Dify 开源条款） · 主要语言：TypeScript 51.5% / Python 44.1%
2026年6月14日

【开源推荐】Open Notebook：29.9K+ Stars！Notebook LM 开源替代品，隐私优先+18家AI模型随意切换

📌 项目简介

Open Notebook 是 Google Notebook LM 的开源替代品，隐私优先、支持自托管，兼容 18+ AI 服务商（OpenAI、Anthropic、Ollama 等），让你完全掌控研究数据，不再受大厂绑定。

29.9K+

GitHub Stars

18+

AI 服务商

100%

数据自主

MIT

开源协议

⚙️ 安装要求和过程

环境要求

仅需安装 Docker Desktop（所有平台通用）
支持 Windows / macOS / Linux
需要约 2GB 磁盘空间

快速安装（3 步搞定）

# 第1步：下载 docker-compose.yml
curl -o docker-compose.yml https://raw.githubusercontent.com/lfnovo/open-notebook/main/docker-compose.yml
# 第2步：修改加密密钥（可选但推荐）
# 编辑 docker-compose.yml，修改 OPEN_NOTEBOOK_ENCRYPTION_KEY
# 第3步：启动服务
docker compose up -d
# 等待 15-20 秒后访问
浏览器打开 http://localhost:8502

安装完成后在浏览器打开 http://localhost:8502 即可使用，AI 密钥可在 Web UI 中配置，无需提前写入配置文件。

✨ 核心功能

🔒

隐私优先，数据自主

自托管部署，所有研究数据存储在本地，完全不受 Google 服务器约束。支持 Docker / 云端 / 本地多种部署方式。

🤖

18+ AI 服务商兼容

原生支持 OpenAI、Anthropic、Google、Groq、Ollama、DeepSeek、Mistral、xAI 等 18+ 家，也支持任意 OpenAI 兼容接口（LM Studio 等）。

🎙️

专业多角色播客生成

支持 1-4 个可自定义角色的播客生成，比 Notebook LM 的 2 角色更灵活，可打造个性化内容输出。

🔍

全文 + 向量语义双搜索

所有上传内容同时支持关键词全文检索和向量语义搜索，快速定位研究资料中的关键信息。

⚡

完整 REST API

提供完整的 REST API 接口，支持全流程程序化调用，可集成到现有工作流或自动化系统中。

💡 典型使用场景

场景一：学术研究资料管理

上传论文 PDF、会议视频、网页资料，让 AI 基于你的资料库进行问答和总结。数据完全本地存储，敏感研究内容不外泄。

场景二：多模型对比研究

同时配置 OpenAI、Anthropic、DeepSeek 等多个模型，在同一套资料上对比不同模型的分析能力，选出最适合的模型。

场景三：团队知识库 + 播客输出

将团队文档、会议记录导入 Open Notebook，用 AI 生成洞察；还可将研究成果一键转换为多角色播客，方便团队内部分享。

⚡ Open Notebook vs Notebook LM

对比维度	Open Notebook	Notebook LM
数据隐私	✅ 自托管，完全自主	❌ 仅 Google 云端
AI 模型选择	✅ 18+ 家，含本地模型	❌ 仅 Google 模型
播客角色数	✅ 1-4 个可自定义	⚠️ 仅 2 个
API 访问	✅ 完整 REST API	❌ 无
成本	✅ 只需支付 AI 调用费	⚠️ 免费层 + 月费订阅
开源定制	✅ MIT 协议，完全可改	❌ 封闭系统

💬 推荐理由

Google Notebook LM 确实好用，但它有两个痛点：数据在 Google 服务器上，以及只能用 Google 的模型。如果你研究的内容比较敏感，或者想用 DeepSeek / 本地 Ollama 来节省成本，Notebook LM 就没法满足你了。

Open Notebook 最大的价值就是把控制权还给你：数据存在自己服务器上，想用哪个 AI 就用哪个，甚至可以在完全没有外网的环境里跑本地模型。而且它还有完整 REST API，可以接入自己的自动化流程。

部署也超级简单，会 Docker 就能跑，三行命令搞定。如果你一直在找 Notebook LM 的平替，这个项目值得一试。开源、免费、不绑架数据，还要什么自行车？

🤖 已支持 AI 服务商（部分）

OpenAI
Anthropic
Google GenAI
Groq
Ollama
DeepSeek
Mistral
xAI (Grok)
OpenRouter
Azure OpenAI
Vertex AI
MiniMax
DashScope (Qwen)
LM Studio

📥 下载地址

⭐ GitHub 主页
🌐 官方网站
📖 快速入门
💬 Discord 社区

2026年6月13日

【开源推荐】crawl4ai：68.3K+ Stars！专为LLM设计的网页爬虫，让AI直接读懂网页内容
crawl4ai – 专为LLM和AI Agent设计的网页爬虫工具 @reference_1@

📌 项目简介

crawl4ai 是一款专为LLM和AI Agent设计的开源网页爬虫工具，能将任意网页内容转换为干净的Markdown格式，可直接用于RAG、AI Agent、数据管道等场景，无需依赖任何付费API。

68.3K+

GitHub Stars

Python

开发语言

v0.6+

最新版本
⚙️
安装要求和过程

环境要求

Python ≥ 3.10

Playwright（用于异步浏览器控制）

支持 Windows / macOS / Linux

快速安装（4步搞定）

# 第1步：安装 crawl4ai

pip install -U crawl4ai

# 第2步：配置浏览器依赖

crawl4ai-setup

# 第3步：验证安装

crawl4ai-doctor

# （可选）如 Playwright 报错，手动安装浏览器

python -m playwright install chromium

Docker 部署（生产推荐）

# 拉取官方镜像

docker pull unclecode/crawl4ai:latest

# 启动容器

docker run -d -p 11235:11235 –name crawl4ai –shm-size=1g unclecode/crawl4ai:latest

# 访问监控面板

http://localhost:11235/dashboard
⚡
核心功能

① 智能 Markdown 生成

生成结构清晰、格式准确的干净 Markdown，支持 Fit Markdown 启发式过滤，自动剔除无关噪音内容。支持 BM25 算法过滤，可提取核心信息，更适合 AI 处理。

② LLM 驱动的结构化数据提取

支持所有 LLM（开源/闭源）驱动的结构化数据提取。内置多种分块策略，支持基于用户查询的语义内容匹配，可通过自定义 Schema 从重复页面模式中批量提取结构化 JSON。

③ 浏览器深度集成

支持托管用户自有浏览器，通过 Chrome DevTools 协议实现远程浏览器控制。支持浏览器配置文件持久化（保存认证状态、Cookie），完美支持需要登录的网站爬取。

④ 动态页面与反爬对抗

支持执行 JavaScript、等待异步动态内容加载、处理无限滚动页面。提供隐身模式模拟真实用户行为，支持自定义请求头、Cookie、User-Agent 和代理认证，有效绕过常见反爬限制。

⑤ Docker 一键部署 + API 服务

提供优化后的 Docker 镜像，内置 FastAPI 服务，开箱即用。内置 JWT 令牌认证保障 API 安全，支持大规模生产环境部署，是构建数据采集基础设施的最佳选择。

💡
典型使用场景

场景1：RAG 知识库数据准备

将网页内容转换为干净 Markdown，作为 RAG 系统的知识库来源。crawl4ai 的 Fit Markdown 功能可自动过滤导航栏、广告、页脚等噪音，只保留核心正文，避免无关内容干扰大模型输出。配合深度爬取（BFS/DFS策略）可批量采集整个网站。

场景2：AI Agent 实时信息获取工具

将 crawl4ai 封装为 AI Agent 的工具函数，让 Agent 能够自主爬取所需网页内容。比如用户问”今天有哪些 AI 新闻？”，Agent 可自动爬取新闻网站并提取结构化信息，真正实现 AI 联网能力。

场景3：大规模数据采集管道

结合 Docker 部署、浏览器池、缓存机制，搭建大规模高并发网页数据采集系统。内置的浏览器配置文件持久化能力，可保存登录状态实现需要认证的网站批量采集，适合构建企业级数据采集基础设施。

🚀 30秒快速开始

Python 代码方式：

import asyncio

from crawl4ai import *

async def main():

async with AsyncWebCrawler() as crawler:

result = await crawler.arun(url=”https://example.com”)

print(result.markdown) # 获取干净 Markdown

if __name__ == “__main__”:

asyncio.run(main())

CLI 命令行方式：

crwl https://example.com -o markdown

# 深度爬取，最多10个页面

crwl https://docs.crawl4ai.com –deep-crawl bfs –max-pages 10

💝
推荐理由

如果你正在构建 RAG 系统或 AI Agent，crawl4ai 是目前开源界最值得关注的网页数据采集工具。它解决了传统爬虫的两个核心痛点：

第一，真正为 LLM 优化。 传统爬虫输出的是原始 HTML 或杂乱文本，需要大量后处理才能喂给大模型。crawl4ai 直接输出干净、结构化的 Markdown，内置的 Fit Markdown 功能可以智能过滤导航、广告等噪音，让 RAG 召回质量大幅提升。

第二，对动态页面和反爬场景的支持非常完善。 基于 Playwright 的浏览器控制，可以处理 React/Vue 等前端框架渲染的页面，支持等待异步内容加载、处理无限滚动。隐身模式和浏览器指纹自定义功能，让我在采集一些有反爬机制的网站时也能稳定获取数据。

最让我惊喜的是它的 Docker 部署方案。 几分钟就能搭建一个带 API 服务的爬取引擎，内置 JWT 认证，可以直接集成到现有数据管道中。对于需要大规模采集的场景，这比手写 Scrapy 爬虫效率高太多了。

⭐ 总之，如果你需要为 AI 应用添加网页数据获取能力，crawl4ai 是目前最成熟的开源选择，没有之一。

📥 下载地址

🐙 GitHub 仓库
 📖 官方文档
 📦 PyPI 页面

License: Apache 2.0 | 作者: UncleCode | 最近更新: 2026年6月

💡 关注【开源推荐】系列，每周带你发现最值得关注的 AI 开源项目
⭐ 如果这篇文章对你有帮助，欢迎在 WordPress 点赞留言！
2026年6月12日

标签： Docker

【开源推荐】Qdrant：32.2K+ Stars！Rust 构建的高性能向量数据库，AI 应用的向量检索引擎

Qdrant —— 为 AI 应用打造的高性能向量数据库

⚙️ 安装要求和过程

环境要求

快速安装（Docker 方式）

生产部署建议

⚡ 核心功能

💡 典型使用场景

💬 推荐理由

📦 下载地址 & 相关链接

【开源推荐】Dify：145K+ Stars！开源LLM应用开发平台，可视化构建AI工作流与RAG管道

📌 项目简介

🔧 安装要求和过程

方式一：Docker Compose 部署（推荐，最快5分钟上线）

方式二：从源码部署（适合开发者定制）

方式三：云服务版（无需部署，立即使用）

⚡ 核心功能

🎨 可视化工作流编排

🤖 全模型支持 & RAG 管道

🛠️ 智能体 + 50+ 内置工具

📊 Prompt IDE + 可观测性

🔌 丰富 API & 生态集成

💡 典型使用场景

企业知识库问答

AI 工作流自动化

快速 AI 产品原型验证

🌟 推荐理由

📦 下载地址

【开源推荐】Open Notebook：29.9K+ Stars！Notebook LM 开源替代品，隐私优先+18家AI模型随意切换

📌 项目简介

⚙️ 安装要求和过程

环境要求

快速安装（3 步搞定）

✨ 核心功能

💡 典型使用场景

⚡ Open Notebook vs Notebook LM

💬 推荐理由

🤖 已支持 AI 服务商（部分）

📥 下载地址

【开源推荐】crawl4ai：68.3K+ Stars！专为LLM设计的网页爬虫，让AI直接读懂网页内容

📌 项目简介

⚙️ 安装要求和过程

环境要求

快速安装（4步搞定）

Docker 部署（生产推荐）

⚡ 核心功能

① 智能 Markdown 生成

② LLM 驱动的结构化数据提取

③ 浏览器深度集成

④ 动态页面与反爬对抗

⑤ Docker 一键部署 + API 服务

💡 典型使用场景

场景1：RAG 知识库数据准备

场景2：AI Agent 实时信息获取工具

场景3：大规模数据采集管道

🚀 30秒快速开始

💝 推荐理由

📥 下载地址

⚙️
安装要求和过程

⚡
核心功能

💡
典型使用场景

⚙️
安装要求和过程

⚡
核心功能

💡
典型使用场景

💝
推荐理由