标签： LLM

【开源推荐】Cherry Studio：47K+ Stars！多模型AI桌面客户端，一个应用搞定所有大模型
🍒 项目名称：Cherry Studio

⭐ GitHub Stars：47.1K+

🏷️ 开源协议：AGPL-3.0

💻 支持平台：Windows / macOS / Linux

🔗 GitHub：github.com/CherryHQ/cherry-studio

🌐 官网：cherry-ai.com

📝 项目简介

Cherry Studio 是一款支持多种大语言模型提供商的开源AI桌面客户端，覆盖 Windows、Mac、Linux 三大平台。它提供智能聊天、自主智能体、300+ 预配置助手能力，可统一访问前沿大语言模型，是2026年最值得关注的 AI 生产力工具之一。

无论你是用 OpenAI Gemini Claude 等云端模型，还是用 Ollama 跑本地模型，Cherry Studio 都能一站式搞定，告别在多个网页和客户端之间来回切换的烦恼。

⚙️ 安装要求和过程

环境要求
- 操作系统：Windows 10+、macOS 11+、主流 Linux 发行版
- 无需额外环境配置：开箱即用，下载安装包直接运行
- 网络要求：使用云端模型需配置 API Key；使用本地模型需提前安装 Ollama 或 LM Studio
快速安装步骤
1. 访问 GitHub Releases 页面，下载对应系统的安装包
2. Windows：下载 .exe 安装包，双击运行
3. macOS：下载 .dmg 文件，拖入 Applications 文件夹
4. Linux：下载 .AppImage 或 .deb / .rpm 包安装
5. 启动后，在设置中配置模型 API Key 或连接本地 Ollama
🌟 核心功能

🤖 多 LLM 提供商支持

支持 OpenAI、Gemini、Anthropic、Claude 等主流云端大模型，同时支持 Ollama、LM Studio 等本地模型，一个客户端搞定所有模型。

🧠 300+ 预配置 AI 助手

内置丰富领域的专业 AI 助手模板，涵盖编程、写作、翻译、分析等场景，开箱即用，也支持自定义助手创建。

📄 多格式文档处理

支持文本、图片、Office 文档、PDF 等多格式文件处理，内置 RAG 知识库能力，让 AI 基于你的文档作答。

🔌 MCP 协议支持

支持模型上下文协议（MCP）服务器，可扩展 AI 能力边界，接入专业工具和数据源。

🎨 可视化与开发工具

支持 Mermaid 图表可视化、代码语法高亮、全局搜索、话题管理系统，满足专业用户的需求。

🚀 典型使用场景

场景一：多模型对比测试

研究者或开发者需要同时对比 GPT-4.1、Claude 4 Opus、Gemini 2.5 Pro 在同一任务上的表现？Cherry Studio 支持多模型同时对话，同一条消息发送给多个模型，结果并排展示，轻松找出最强模型。

场景二：本地 + 云端混合使用

日常聊天用免费的本地模型（Ollama + Qwen3），重要任务切换云端前沿模型。Cherry Studio 统一入口管理，无需在多个工具间切换，数据隐私和模型能力兼得。

场景三：企业知识库问答

上传公司文档、技术手册到 Cherry Studio 知识库，结合 RAG 技术，让 AI 基于企业内部知识精准作答，打造专属的企业 AI 助手。

💡 推荐理由

作为一款开源免费的 AI 桌面客户端，Cherry Studio 最大的价值在于统一——统一了模型入口、统一了对话历史、统一了工具生态。

在此之前，用 OpenAI 要去网页，用 Claude 要开另一个网页，本地 Ollama 又是命令行，多模型对比更是麻烦。Cherry Studio 把这些全部整合到一个窗口里，还加上了知识库、MCP 工具扩展、300+ 助手模板，真正做到了”一个客户端，所有 AI 能力”。

尤其值得一提的是它的开箱即用体验——无需配置 Python 环境，无需折腾依赖，下载安装包，点几下鼠标配置 Key，马上就能用。对非技术用户非常友好。

如果你同时满足以下任意一点，强烈推荐试试 Cherry Studio：
- 同时使用多个 AI 模型（GPT/Claude/Gemini/本地模型）
- 希望 AI 能读取并处理你的本地文档
- 想要一个统一、美观、功能完整的 AI 客户端
- 重视数据隐私，希望本地运行 AI
📥 下载地址

🍒 GitHub 仓库
 🌐 官方网站
 📦 下载安装包

📌 本文由 WorkBuddy AI 自动化任务 定时发布，选题自 GitHub 热门 AI 开源项目。欢迎关注本站「开源项目」栏目，每周精选优质 AI 开源工具深度介绍。
2026年6月10日
screenshot-to-code：72.8K Stars！截图秒变代码，设计师和前端开发者必备神器
🖼️ 配图

screenshot-to-code – 截图秒变可用代码

📝 项目简介

screenshot-to-code 是一款 AI 驱动的 UI 转代码神器，上传网页截图、线框图、Figma 设计稿甚至屏幕录制，AI 即可将其转化为干净可用的前端代码。项目在 GitHub 上已获得 72.8K+ Stars，是设计师和前端开发者必备的效率工具。

⚙️ 安装要求和过程

环境要求
- Node.js 18+（前端运行依赖）
- Python 3.10+（后端运行依赖，推荐用 Poetry 管理）
- AI 模型 API Key：OpenAI / Anthropic / Google Gemini 至少其一
- Yarn（前端包管理）
快速安装（3种方式）

方式一：直接使用官方托管服务（推荐试用）
```
# 无需安装，直接访问官网使用
https://screenshot-to-code.com
```
方式二：本地源码运行（推荐开发使用）
```
# 克隆仓库
git clone https://github.com/abi/screenshot-to-code.git
cd screenshot-to-code

# 启动后端
cd backend
echo "OPENAI_API_KEY=sk-your-key" > .env
poetry install && poetry run uvicorn main:app --reload --port 7001

# 新终端，启动前端
cd frontend
yarn && yarn dev
```
启动后访问 http://localhost:5173 即可使用。

方式三：Docker 一键部署
```
echo "OPENAI_API_KEY=sk-your-key" > .env
docker-compose up -d --build
```
启动后访问 http://localhost:5173。

API Key 配置
```
# backend/.env 配置示例
OPENAI_API_KEY=sk-your-openai-key
ANTHROPIC_API_KEY=your-anthropic-key
GEMINI_API_KEY=your-gemini-key

# 国内用户可配置代理
OPENAI_BASE_URL=https://your-proxy-url/v1
```
✨ 核心功能

1. 多模态输入支持
- 支持上传网页截图，一键转换为对应代码
- 支持Figma 设计稿直接导入转代码
- 支持线框图/手绘草图转可用 UI
- 支持屏幕录制转可交互原型（最新功能！）
2. 多技术栈输出
- HTML + Tailwind CSS（默认，最快）
- React + Tailwind（最流行）
- Vue + Tailwind
- Bootstrap
- Ionic + Tailwind（移动端）
3. 多 AI 模型对比
- 支持同时配置 OpenAI、Claude、Gemini 多个厂商 API
- 可在界面上切换模型，对比不同模型的生成效果
- 默认支持：GPT-5.5、Claude Opus 4.8、Gemini 3 Flash
4. 实用辅助功能
- 支持代理配置，国内用户可通过 OPENAI_BASE_URL 配置代理
- 支持自定义后端地址，可对接自己部署的后端服务
- 支持图像生成模型 z-image-turbo（基于 Replicate）
🚀 典型使用场景

场景一：设计师交付前端代码

设计师完成 Figma 设计稿后，导入 screenshot-to-code，选择 React + Tailwind 技术栈，10 秒内获得可用前端代码，直接交付给开发团队，减少沟通成本。
```
# 使用流程
1. 访问 https://screenshot-to-code.com
2. 上传 Figma 设计稿截图或输入 Figma 链接
3. 选择技术栈：React + Tailwind
4. 点击生成，等待 10-30 秒
5. 复制生成的代码，直接用到项目中
```
场景二：快速克隆竞品页面

看到竞争对手的漂亮落地页，截图后上传，选择 HTML + Tailwind，AI 快速生成还原度 90%+ 的代码，二次修改即可自用。
```
# 进阶技巧：截图 + 文字描述双保险
1. 截取目标网页全屏截图
2. 上传截图
3. 在提示词框补充：这是一款 SaaS 产品落地页，需要保留原设计的渐变背景和动画效果
4. 生成后下载代码，本地微调
```
场景三：屏幕录制转交互原型

录制 App 操作流程的屏幕视频，上传后 AI 生成可交互的 HTML 原型，用于产品演示或用户测试。

💡 推荐理由

作为一款”截图即代码”的 AI 工具，screenshot-to-code 是我用过的最实用的前端辅助工具之一：
1. 还原度惊人：使用 Claude Opus 或 GPT-5.5 生成，还原度可达 90%+，Tailwind 类名使用准确。
2. 学习神器：新手前端可以截图优秀网站，看 AI 如何实现的，学习高级 CSS 技巧和组件设计。
3. 免费开始：官方托管服务 https://screenshot-to-code.com 提供免费额度，无需配置 API Key 即可试用。
4. 多模型对比：同时配置多个厂商 Key，同样截图用不同模型生成，选最优结果。
5. 开源可自建：MIT 协议，可内网部署，不用担心设计稿泄露。
注意事项：不推荐使用 Ollama 本地模型运行，生成质量较差；国内用户需要配置 OpenAI 代理或使用 Gemini API（无需代理）。

总体而言，screenshot-to-code 是设计师、前端开发者、产品经理必备的效率工具。免费试用 + 开源自建 + 多模型支持，性价比极高。

📥 下载地址
- GitHub 仓库：https://github.com/abi/screenshot-to-code（72.8K+ ⭐）
- 官方在线版：https://screenshot-to-code.com（免费试用）
- 本地部署文档：GitHub README
- 支持的技术栈：HTML+Tailwind / React+Tailwind / Vue+Tailwind / Bootstrap / Ionic
本文由 WorkBuddy 自动发布，选题自 GitHub 热门 AI 开源项目。如有问题，欢迎在评论区留言讨论。
2026年6月8日
Ollama：170k Stars！本地LLM运行工具，让AI模型在本地飞速运行
配图

Ollama – 本地LLM运行工具

项目简介

Ollama 是一个轻量级的本地大语言模型（LLM）运行工具，让你能够在自己的设备上轻松部署和运行各种开源大语言模型，无需将数据发送到外部服务器，完全保护隐私。

截至2026年，Ollama 已在 GitHub 获得 17万+ Stars，成为最广泛使用的本地LLM运行时，Docker Hub下载量超过1亿次。

安装要求和过程

环境要求
- 操作系统：Linux（Ubuntu 20.04+）、macOS 11+、Windows 10（需WSL2）
- 内存：8GB以上（运行7B模型），16GB以上（运行13B模型），32GB以上（运行33B+模型）
- 存储：至少10GB可用空间（用于存放模型文件）
- GPU：可选，NVIDIA GPU（CUDA）、AMD GPU（ROCm）或苹果M系列芯片可加速推理
快速安装步骤

macOS/Linux 一键安装：
```
# Linux/macOS
curl -fsSL https://ollama.com/install.sh | sh

# macOS 也可用 Homebrew
brew install ollama
```
Windows 安装：
1. 访问 https://ollama.com/download 下载 Windows 安装包
2. 运行 OllamaSetup.exe，按照提示完成安装
3. 打开命令提示符或PowerShell，输入 ollama --version 验证安装
Docker 安装（推荐服务器环境）：
```
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
```
核心功能
1. 一键运行本地模型：支持一键拉取和运行100+开源大语言模型，包括 Llama 3.3、Mistral、Qwen、Phi、DeepSeek R1 等热门模型。
2. OpenAI API 兼容：原生提供兼容 OpenAI API 格式的 REST API（默认端口11434），可直接对接现有基于 OpenAI 生态开发的应用和工具。
3. 智能硬件加速：自动适配 NVIDIA（CUDA）、AMD（ROCm）、苹果 M 系列芯片（Metal）的 GPU 加速，大幅提升推理速度。
4. 模型自定义配置：支持通过 Modelfile 自定义模型参数（温度、上下文长度、系统提示词等），轻松创建专属模型。
5. 多模态支持：最新版本支持视觉模型（如 Llama 3.2 Vision），可处理图像输入，实现图文混合推理。
典型使用场景

场景一：开发者本地 AI 应用开发

作为开发者，你可以使用 Ollama 在本地运行 LLM，用于：
- 开发和测试 AI 应用，无需支付 API 费用
- 对接 Open-WebUI 等前端界面，搭建私有化 AI 聊天助手
- 通过 API 集成到自己的应用中，实现本地智能推理
示例：用 Ollama 运行 Llama 3.3 8B 模型，通过 OpenAI 兼容 API 为本地应用添加 AI 能力。

场景二：企业私有化部署

对于企业用户，Ollama 提供了：
- 数据隐私保护：所有推理过程在本地完成，敏感数据无需上传云端
- 零 API 成本：无需为每次 API 调用付费，适合高频调用场景
- 离线可用：模型下载后，无需联网即可使用，适合内网环境
推荐理由

我个人从2025年开始使用 Ollama，它已经成为我本地 AI 开发的标配工具。推荐理由如下：
1. 极简体验：一条命令就能安装，一条命令就能运行模型，对新手极其友好。
2. 生态丰富：支持对接 Open-WebUI、Continue（VS Code 插件）、LangChain 等50+主流工具，可玩性极高。
3. 性能优秀：支持 4-bit/8-bit 量化，即使在中端笔记本上也能流畅运行 7B 参数的模型。
4. 活跃社区：GitHub 上40000+社区集成，几乎任何你能想到的工作流，都有人已经做好了集成方案。
如果你想要一个简单、快速、隐私安全的本地 LLM 运行方案，Ollama 绝对是首选。

下载地址
- 官方网站：https://ollama.com
- GitHub 仓库：https://github.com/ollama/ollama
- 文档中心：https://github.com/ollama/ollama/blob/main/README.md
- 模型库：安装后运行 ollama pull <模型名> 即可拉取模型
2026年6月8日
Headroom：16.4k Stars！LLM上下文压缩层，最高省95% token消耗
用AI Agent干活，token消耗像流水。工具输出一多，日志一长，上下文就爆了。Headroom就是来解决这个问题的。

项目是什么

Headroom是一个面向AI Agent的上下文压缩层，在内容进入LLM之前先做压缩处理。工具输出、日志、RAG检索结果、代码文件、对话历史，统统可以压。官方数据说能省60-95%的token，而且答案质量不降。

安装要求和过程

要求Python 3.10以上。安装本身很简单：
```
# 全量安装（推荐）
pip install "headroom-ai[all]"

# Node.js版本
npm install headroom-ai

# Docker
docker pull ghcr.io/chopratejas/headroom:latest
```
如果你想按需安装，可以只装指定模块：[proxy]、[mcp]、[ml]、[code]、[memory]、[relevance]、[image]，不用全量。装完直接 headroom wrap claude 就能把Claude Code包起来用，零代码修改。

核心功能
- 三种接入模式：当作Python/TypeScript库直接调用 compress()，或者跑一个本地代理让任意应用零改动接入，或者直接wrap主流AI编码工具（Claude Code、Cursor、Aider、Copilot都支持）。
- MCP服务器模式：提供了 headroom_compress、headroom_retrieve、headroom_stats 三个工具，可以接进任何MCP客户端。对用Claude Desktop或者Cline的人很方便。
- 可逆压缩（CCR）：原始内容不会删，LLM觉得信息不够的时候可以通过工具调用把原始内容拿回来。不是有损压缩，是”按需取用”。
- 跨Agent共享内存：多个Agent（Claude、Codex、Gemini）可以共享同一套上下文存储，自动去重。做多Agent协作的人会喜欢这个功能。
- 自动学习：跑一下 headroom learn，它会去分析失败的会话，把修正规则自动写进 CLAUDE.md / AGENTS.md 这些配置文件。相当于Agent自己进化。
典型使用场景

先看数据。官方跑了一些真实工作负载的压缩测试：

工作负载类型压缩前token 压缩后token 压缩率

代码搜索（100条结果） 17,765 1,408 92%

SRE故障排查 65,694 5,118 92%

GitHub Issue分类 54,174 14,761 73%

实际场景里，最爽的是这两个：

第一，长日志排查。SRE场景里把6万多token的日志压缩到5千多，压缩率92%，而且LLM给出的排查结论和质量没差。这意味着你可以用更便宜的模型、更短的上下文窗口，处理同样复杂的任务。

第二，RAG场景。把检索回来的大量chunk先压缩再塞给LLM，原本只能放5条chunk的上下文窗口，现在能放20条。检索质量上去了，token消耗反而下来了。

为什么推荐它

我试过几个类似的方案，RTK、lean-ctx，还有OpenAI自己出的压缩方案。Headroom最打动我的是”可逆压缩”这个设计。很多压缩方案是单向的，压完原始信息就没了，LLM判断需要细节的时候拿不到原文。Headroom的CCR机制让LLM可以按需取回原始内容，这个设计很聪明。

另外就是接入成本真的低。如果你用的是Claude Code或者Cursor，一条命令 headroom wrap claude 就搞定，不需要改代码，不需要重新配置，直接生效。对于已经用上这些工具的人来说，几乎是零成本的优化。

本周Headroom在GitHub周增长榜排第一，新增了13,000+ star。16.4k的总star数不算高，但增长曲线很陡，说明用过的人都在往上加。这种”开发者口碑传播”的项目，通常比营销驱动的项目更值得跟。

GitHub：github.com/chopratejas/headroom
官网文档：headroom-docs.vercel.app
协议：Apache 2.0（可商用）
2026年6月7日
vLLM：82.1k Stars！高性能LLM推理引擎，让大模型部署又快又省
vLLM：82.1k Stars！高性能LLM推理引擎，让大模型部署又快又省

配图

项目简介

vLLM 是一个面向所有人的易用、快速、低成本的LLM服务引擎，提供高吞吐量、内存高效的推理能力，让大语言模型的生产部署变得简单高效。

安装要求和过程

环境要求
- 操作系统：Linux（推荐）或 macOS
- Python：3.8 – 3.12
- GPU：NVIDIA GPU（CUDA 7.0+）或 AMD GPU（ROCm 5.6+）
- CPU：x86、ARM 或 PowerPC（支持 CPU 推理）
快速安装步骤

方法一：使用 uv 安装（推荐）
```
uv pip install vllm
    
```
方法二：使用 pip 安装
```
pip install vllm
    
```
方法三：从源码构建
```
git clone https://github.com/vllm-project/vllm.git
    cd vllm
    pip install -e .
    
```
验证安装
```
python -c "import vllm; print(vllm.__version__)"
    
```
核心功能
1. 业界领先的推理吞吐量
  基于 PagedAttention 技术高效管理注意力键值内存，支持连续批处理、分块预填充、前缀缓存等优化技术，单GPU即可实现超高并发推理服务。
2. 丰富的量化方案支持
  原生支持 FP8、MXFP8/MXFP4、NVFP4、INT8、INT4、GPTQ/AWQ、GGUF 等多种量化格式，在保证模型质量的同时大幅降低显存占用和推理延迟。
3. 无缝的 Hugging Face 集成
  直接加载 Hugging Face 上 200+ 模型架构，包括 Llama、Qwen、Gemma、Mixtral、DeepSeek-V3 等热门模型，无需任何适配代码。
4. 分布式推理支持
  支持张量并行、流水线并行、数据并行、专家并行、上下文并行，可轻松扩展到大模型多卡、多机部署场景。
5. 多模态模型支持
  不仅支持纯文本LLM，还支持 LLaVA、Qwen-VL、Pixtral 等多模态模型，满足图文理解、视觉问答等复杂场景需求。
典型使用场景

场景一：企业级大模型API服务

某 AI 创业公司需要将 Qwen2.5-72B 模型部署为 OpenAI 兼容的 API 服务，供前端应用调用。

解决方案：使用 vLLM 启动兼容 OpenAI API 的服务器，仅需一行命令：
```
vllm serve Qwen/Qwen2.5-72B-Instruct --tensor-parallel-size 4
    
```
启动后自动提供与 OpenAI 完全兼容的 API，现有代码无需修改即可切换到底层模型，同时享受 vLLM 带来的 3-5倍吞吐量提升。

场景二：本地开发与环境测试

开发者需要在本地机器上快速测试不同 LLM 的能力，评估哪个模型最适合自己的应用场景。

解决方案：使用 vLLM 的 Python API 或 LLM 类，像使用 transformers 一样简单：
```
from vllm import LLM, SamplingParams
    
    # 初始化模型
    llm = LLM(model="meta-llama/Llama-3.1-8B-Instruct")
    
    # 设置生成参数
    params = SamplingParams(temperature=0.7, max_tokens=256)
    
    # 批量推理
    prompts = ["解释量子计算", "写一个快速排序"]
    outputs = llm.generate(prompts, params)
    
    for output in outputs:
        print(output.prompt, output.outputs[0].text)
    
```
推荐理由

作为一名经常需要部署和测试大模型的开发者，vLLM 已经成为我工具箱里不可或缺的利器。之前每次部署新模型都要折腾好几天，要么显存不够，要么吞吐量上不去，要么就是跟各种推理框架的适配问题。

vLLM 最大的价值在于它真的能做到开箱即用。你从 Hugging Face 上找到的模型，基本上扔给 vLLM 就能跑，不用自己写适配代码，不用深入研究模型架构。特别是它的 PagedAttention 技术，真的把显存利用率拉满了，同样一张 A100，用 vLLM 能服务的并发请求数是之前的好几倍。

另外很赞的一点是它的量化支持特别全面。现在模型越来越大，不量化根本跑不起来。vLLM 支持的量化格式特别多，AWQ、GPTQ、GGUF 这些主流的都有，而且量化后的精度损失控制得很好，实际业务里基本感觉不出来。

如果你正在做 LLM 相关的项目，不管是创业做 AI 产品，还是企业里搭私有化部署，vLLM 都值得一试。它现在基本上是业界标准了，82.1k 的 Stars 不是白来的。

下载地址
- 官方网站：https://vllm.ai
- GitHub 仓库：https://github.com/vllm-project/vllm（82.1k+ Stars）
- 官方文档：https://docs.vllm.ai
- PyPI 安装：pip install vllm
- 社区论坛：https://discuss.vllm.ai
如果你觉得这个项目有帮助，欢迎到 GitHub 上点个 Star，支持开源社区的发展！
2026年6月7日
LiteLLM：49.4K Stars！统一100+ LLM API网关，让多模型调用不再碎片化
📌 项目简介

LiteLLM 是 BerriAI 团队维护的开源 AI 网关，为 100+ 大语言模型提供统一访问接口，支持 OpenAI 格式调用，内置成本跟踪、安全防护、负载均衡等企业级能力。Y Combinator W23 孵化项目，Stripe、Netflix、Google ADK 等大厂均在用。
🔧 安装要求和过程

环境要求

Python 3.8+ 环境

推荐使用 uv 包管理器（也可使用 pip）

本地开发额外依赖：docker-compose（用于启动数据库、Prometheus 等依赖服务）

快速安装步骤

# 1. 克隆仓库 git clone https://github.com/BerriAI/litellm.git && cd litellm # 2. 安装开发依赖 make install-dev # 3. 初始化虚拟环境 python -m venv .venv # Linux/Mac: source .venv/bin/activate # Windows: .venv\Scripts\activate uv sync --all-extras --group proxy-dev # 4. 生成 Prisma 客户端 uv run prisma generate && prisma generate # 5. 启动本地服务（后端） python litellm/proxy/proxy_cli.py # 6. 启动前端（另开终端） cd ui/litellm-dashboard && npm install && npm run dev

💡 Docker 快速启动：

docker run -v $(pwd)/litellm_config.yaml:/app/config.yaml -p 4000:4000 berriai/litellm:latest
🚀 核心功能

🌐 统一 LLM 调用

支持 100+ LLM 厂商（OpenAI、Anthropic、AWS Bedrock、Azure、Google Vertex AI、Cohere、HuggingFace、vLLM、NVIDIA NIM 等），所有调用兼容 OpenAI API 格式，切换模型无需修改业务代码。

🛡️ AI 网关能力

虚拟 API 密钥管理、多租户成本跟踪、负载均衡、重试/fallback 逻辑、安全防护规则、调用日志，并提供 管理后台 UI可视化监控。

🤖 智能体（A2A）支持

支持调用 LangGraph、Azure AI Foundry、Bedrock AgentCore 等平台的智能体，提供 A2A 协议适配，可统一接入各类智能体服务。

🔗 MCP 工具桥接

可将 MCP 服务器的工具转换为 OpenAI 格式 tool 定义，直接对接任意 LLM；支持通过网关统一代理 MCP 工具调用。

🏢 企业级特性

单点登录（SSO）、自定义集成、专属支持、SLA 保障、功能优先级定制。高性能：1k RPS 场景下 P95 延迟仅 8ms。
💡 典型使用场景

场景一：多模型切换，代码零改动

开发阶段使用 GPT-4o 快速验证，生产环境切换到 Claude Sonnet，只需修改 model 参数，业务代码无需任何改动：

# 同一套代码，切换不同模型 from litellm import completion response = completion( model="openai/gpt-4o", messages=[{"role": "user", "content": "Hello!"}] ) response = completion( model="anthropic/claude-sonnet-4-20250514", messages=[{"role": "user", "content": "Hello!"}] )

场景二：企业 LLM 调用管理与成本跟踪

为不同团队/项目分配虚拟 API 密钥，按维度统计 LLM 调用花费，设置安全防护规则（如屏蔽敏感词、限制调用频率），所有调用日志可视化。

知名用户包括：Stripe、Netflix、Google ADK、Grepile、OpenHands、OpenAI Agents SDK。

场景三：MCP 工具无缝对接 LLM

通过 LiteLLM 的 MCP 工具桥接功能，可以将任何 MCP 服务器的工具转换为 OpenAI 格式，让任意 LLM 都能调用这些工具，无需为每个 LLM 单独适配。
💬 推荐理由

LiteLLM 解决了 AI 应用开发中最痛点的问题之一——多厂商 LLM 接口不统一。以前需要为每个厂商写一套调用代码，现在只需一套 OpenAI 格式代码，通过 model="anthropic/claude-sonnet-4-20250514" 这样的格式就能无缝切换。

对于需要调用多个 LLM 的应用（比如 AI Agent 系统），LiteLLM 几乎是标配组件。Stripe、Netflix、Google ADK 等大厂都在用，说明其稳定性和性能已经过生产验证。

最打动我的一点：它不只做模型路由，还内置了成本跟踪、负载均衡、安全防护等企业级功能，真正把”调用 LLM”这件事做成了一个完整的网关产品，而不只是一个简单的路由库。

📦 下载地址

GitHub 仓库

github.com/BerriAI/litellm

⭐ 49.4k+ Stars | 8.6k+ Forks

官方文档

docs.litellm.ai

📚 完整使用指南

PyPI 安装

pip install litellm

📦 Python 包

企业版

Enterprise Edition

🏢 SSO / 专属支持

LiteLLM – 让100+ LLM 调用，从此只有一种方式。
2026年6月5日

工作负载类型	压缩前token	压缩后token	压缩率
代码搜索（100条结果）	17,765	1,408	92%
SRE故障排查	65,694	5,118	92%
GitHub Issue分类	54,174	14,761	73%

supermemory：25.6K Stars！AI时代记忆引擎，让AI真正记住你

配图

项目简介

supermemory 是一个专为AI时代设计的记忆引擎，解决AI助手”转头就忘”的痛点。它能自动从对话中提取事实、维护用户画像、支持混合搜索（RAG+记忆），在LongMemEval、LoCoMo、ConvoMem三大基准测试中均排名第一。

安装要求和过程

环境要求

环境	要求
Node.js	v18+
Python	3.9+
API Key	supermemory.ai 控制台获取

快速安装

方式一：MCP服务器（推荐，无需写代码）

# Claude/Cursor/Windsurf 一键安装
npx -y install-mcp@latest https://mcp.supermemory.ai/mcp --client claude --oauth=yes

方式二：API调用（开发者）

# Node.js/TypeScript
npm install supermemory

# Python
pip install supermemory

方式三：官方应用（零代码）

访问 app.supermemory.ai 直接使用，支持浏览器扩展、Discord机器人等多种接入方式。

核心功能

功能	说明
自动记忆管理	从对话中自动提取事实，处理信息矛盾（如”搬到旧金山”覆盖”住在纽约”），自动遗忘过期内容，单次调用约50ms
用户画像维护	自动维护稳定事实（偏好、习惯）+ 近期活动上下文，两大维度合并，让AI真正”认识你”
混合搜索	单条查询同时支持RAG（知识库检索）+ 记忆检索，一次性返回文档结果和个性化上下文
多平台连接器	支持Google Drive、Gmail、Notion、OneDrive、GitHub等平台自动同步，支持实时webhook更新
多模态内容提取	支持PDF、图片（OCR）、视频（转录）、代码（AST感知分块）等内容的上传和解析

典型使用场景

场景一：给Claude/Cursor加上”永久记忆”

通过MCP服务器接入后，AI助手会自动调用 memory 工具保存重要信息，调用 recall 工具搜索历史记忆。你说出”我喜欢TypeScript函数式编程”，AI下次写代码时会自动遵循这个偏好，不再需要每次重复背景。

场景二：为AI产品构建上下文栈

通过单个API调用获得完整的上下文能力，无需自己配置向量数据库、embedding管道、分块策略。Vercel AI SDK、LangChain、LangGraph、OpenAI Agents SDK等主流框架均可直接嵌入，几行代码完成集成。

场景三：企业知识库+个人记忆融合

supermemory的混合搜索模式，让AI既能检索企业知识库文档（RAG），又能记住每个用户的个性化偏好和历史对话（记忆），两种能力融合，特别适合企业AI助手、客服机器人等场景。

下载地址

来源	链接
GitHub仓库	github.com/supermemoryai/supermemory（25.6K ⭐）
官方网站	supermemory.ai
文档中心	supermemory.ai/docs
控制台	console.supermemory.ai
npm包	npmjs.com/package/supermemory
PyPI包	pypi.org/project/supermemory

开源协议：MIT | 主要语言：TypeScript | 最后更新：2026年6月

2026年6月5日

Chroma：43.1K Stars！开源向量数据库，让AI应用拥有长期记忆

开源向量数据库 · 让AI拥有长期记忆

📦 项目简介

Chroma 是专为AI应用打造的开源嵌入式向量数据库，让大模型拥有”长期记忆”。它通过简单的Python/JavaScript API，帮助你快速存储、查询和检索文本Embedding向量，是构建RAG（检索增强生成）应用的首选基础设施。

🔗 GitHub：chroma-core/chroma　⭐ Stars：43.1K+　📄 协议：Apache 2.0

🔧 安装要求和过程

环境要求

依赖	要求
Python	≥ 3.8（推荐 3.10+）
内存	≥ 4GB（生产环境建议 8GB+）
存储	≥ 1GB 可用空间
可选后端	SQLite（默认）、DuckDB（分析场景）

快速安装（3行代码搞定）

pip install chromadb

import chromadb
client = chromadb.Client()  # 开箱即用！

Docker 部署（生产推荐）

docker run -d --name chroma \
  -p 8000:8000 \
  ghcr.io/chroma-core/chroma:latest

部署后访问 http://localhost:8000 即可使用 HTTP API。

🔩 核心功能

功能	说明
多模态向量搜索	支持文本、图像、音频的 Embedding 存储与相似度检索
多客户端 SDK	Python、JavaScript/TypeScript、REST API 全覆盖
全文+向量混合搜索	结合关键词匹配与语义搜索，提升召回率
内置 Embedding 函数	默认集成 Sentence Transformers，无需外部 API
持久化存储	支持本地持久化、DuckDB 后端，数据不丢失

💡 典型使用场景

场景一：RAG（检索增强生成）应用

将企业文档、知识库存入 Chroma，用户提问时先检索相关片段，再送给 LLM 生成答案。相比直接问 LLM，准确率提升 40%+，幻觉大幅减少。

# RAG 核心代码（不到 20 行！）
collection = client.create_collection("docs")
collection.add(
    documents=["公司报销流程...", "年假申请..."],
    ids=["1", "2"]
)
results = collection.query(query_texts=["如何报销？"], n_results=1)
# results 包含最相关的文档片段

场景二：AI Agent 长期记忆

让 AutoGPT、CrewAI 等 Agent 框架拥有跨会话记忆。将历史对话的 Embedding 存入 Chroma，下次对话时自动检索上下文，实现”越用越懂你”。

场景三：语义推荐系统

电商、内容平台的”猜你喜欢”，用 Chroma 存储商品/内容向量，用户行为向量实时检索最相似物品，推荐相关度远超协同过滤。

🌟 推荐理由

Chroma 是我见过最易上手的向量数据库，没有之一。不需要学 SQL，不需要配置复杂集群，pip install 之后 3 行代码就能跑起来。

相比 Pinecone 等托管服务，Chroma 完全开源、可自托管，数据不出门，合规零风险。相比 Faiss，它提供了完整的 CRUD API 和持久化，不用每次重启都重新建索引。

如果你正在做 RAG、AI 搜索、推荐系统，或者想给 Agent 加上记忆，Chroma 是目前开发体验最好的选择。LangChain、LlamaIndex、Supabase 都已官方集成，生态非常成熟。

📥 下载地址

渠道	链接 / 命令
GitHub 仓库	github.com/chroma-core/chroma
官网文档	docs.trychroma.com
PyPI 安装	`pip install chromadb`
npm 安装	`npm install chromadb`
Docker 镜像	`ghcr.io/chroma-core/chroma:latest`

— 开源项目第52期 | 夜野飞云 —

2026年6月5日

Chroma：43.1K Stars！开源向量数据库，让AI应用拥有长期记忆

开源向量数据库 · 让AI拥有长期记忆

📦 项目简介

🔗 GitHub：chroma-core/chroma　⭐ Stars：43.1K+　📄 协议：Apache 2.0

🔧 安装要求和过程

环境要求

依赖	要求
Python	≥ 3.8（推荐 3.10+）
内存	≥ 4GB（生产环境建议 8GB+）
存储	≥ 1GB 可用空间
可选后端	SQLite（默认）、DuckDB（分析场景）

快速安装（3行代码搞定）

pip install chromadb

import chromadb
client = chromadb.Client()  # 开箱即用！

Docker 部署（生产推荐）

docker run -d --name chroma \
  -p 8000:8000 \
  ghcr.io/chroma-core/chroma:latest

部署后访问 http://localhost:8000 即可使用 HTTP API。

🔩 核心功能

功能	说明
多模态向量搜索	支持文本、图像、音频的 Embedding 存储与相似度检索
多客户端 SDK	Python、JavaScript/TypeScript、REST API 全覆盖
全文+向量混合搜索	结合关键词匹配与语义搜索，提升召回率
内置 Embedding 函数	默认集成 Sentence Transformers，无需外部 API
持久化存储	支持本地持久化、DuckDB 后端，数据不丢失

💡 典型使用场景

场景一：RAG（检索增强生成）应用

将企业文档、知识库存入 Chroma，用户提问时先检索相关片段，再送给 LLM 生成答案。相比直接问 LLM，准确率提升 40%+，幻觉大幅减少。

# RAG 核心代码（不到 20 行！）
collection = client.create_collection("docs")
collection.add(
    documents=["公司报销流程...", "年假申请..."],
    ids=["1", "2"]
)
results = collection.query(query_texts=["如何报销？"], n_results=1)
# results 包含最相关的文档片段

场景二：AI Agent 长期记忆

让 AutoGPT、CrewAI 等 Agent 框架拥有跨会话记忆。将历史对话的 Embedding 存入 Chroma，下次对话时自动检索上下文，实现”越用越懂你”。

场景三：语义推荐系统

电商、内容平台的”猜你喜欢”，用 Chroma 存储商品/内容向量，用户行为向量实时检索最相似物品，推荐相关度远超协同过滤。

🌟 推荐理由

Chroma 是我见过最易上手的向量数据库，没有之一。不需要学 SQL，不需要配置复杂集群，pip install 之后 3 行代码就能跑起来。

📥 下载地址

渠道	链接 / 命令
GitHub 仓库	github.com/chroma-core/chroma
官网文档	docs.trychroma.com
PyPI 安装	`pip install chromadb`
npm 安装	`npm install chromadb`
Docker 镜像	`ghcr.io/chroma-core/chroma:latest`

— 开源项目第52期 | 夜野飞云 —

2026年6月5日

NextChat：88K Stars！轻量极速的跨平台AI对话界面，让AI助手触手可及
NextChat 是一款轻量极速的开源AI对话界面，支持 GPT-4、Claude 3、Gemini Pro 等十余种主流大模型，提供 Web、iOS、Mac、Android 全平台客户端，让你一键拥有属于自己的私人AI助手。

NextChat 优雅的对话界面

🚀 项目简介

NextChat（原名 ChatGPT-Next-Web）是一个基于 Next.js + React 构建的跨平台 AI 聊天机器人 Web UI。项目从2023年发布至今，已获得 88K+ Stars，成为 GitHub 上最受欢迎的开源 AI 对话前端之一。

它的设计理念是：快、轻、美。整个应用打包后仅约 5MB（Tauri 桌面端），网页端更是做到了极致的加载速度和响应体验。

📦 安装要求和过程

环境要求
- Web 部署：Node.js 18+ 或 Vercel 账号（推荐）
- 桌面端：Windows / macOS / Linux
- 移动端：iOS 15+ / Android 8+
- API Key：需要 OpenAI / Claude / Gemini 等任一模型的 API Key
快速安装 – 三种方式
方式一：Vercel 一键部署（推荐）

最快的方式，5秒钟完成部署：

访问 NextChat GitHub 仓库

点击 Deploy with Vercel 按钮

登录 Vercel，fork 项目并部署

在 Vercel 环境变量中添加你的 OPENAI_API_KEY

部署完成！获得你的私人 ChatGPT 域名
方式二：Docker 部署

# 拉取镜像并运行 docker run -d -p 3000:3000 -e OPENAI_API_KEY="你的API密钥" -e CODE="可选：设置访问密码" yidadaa/chatgpt-next-web # 访问 http://localhost:3000 即可使用
方式三：本地开发

# 克隆项目 git clone https://github.com/ChatGPTNextWeb/NextChat.git # 进入目录 cd NextChat # 安装依赖 npm install # 启动开发服务器 npm run dev # 访问 http://localhost:3000
💡 核心功能
1. 多模型支持，一个界面搞定所有AI

NextChat 最大的优势在于统一接口。你可以在同一个界面中切换：

OpenAI：GPT-3.5, GPT-4, GPT-4o, GPT-4 Turbo

Anthropic Claude：Claude 3 Haiku, Sonnet, Opus

Google：Gemini Pro, Gemini Ultra

国内模型：DeepSeek, 通义千问, 文心一言, 讯飞星火

本地模型：Ollama, LM Studio (通过 OpenAI 兼容接口)

这意味着你可以用同一个界面，根据不同的任务选择最合适的模型 —— 写代码用 GPT-4，聊天用 Claude，节省成本用 DeepSeek。
2. 极速响应，本地存储保护隐私

NextChat 在性能优化上做到了极致：

首屏加载 < 1秒：得益于 Next.js 的 SSR 和静态生成

流式输出：打字机效果，响应无延迟

本地存储：所有对话记录保存在浏览器 LocalStorage，不会上传到服务器

Markdown 渲染：支持代码高亮、表格、数学公式（KaTeX）

对话搜索：快速检索历史对话
3. 对话管理，像专业IDE一样强大

对话分支：可以基于某条消息创建分支，方便对比不同回复

提示词模板：内置多种系统提示词，也支持自定义

对话导入/导出：支持 Markdown、JSON 格式

多会话管理：左侧边栏快速切换不同对话

消息编辑：可以修改已发送的消息重新生成回复
4. 全平台覆盖，随时随地使用AI

NextChat 提供了完整的多端支持：

Web：响应式设计，手机/平板/电脑自适应

macOS：Tauri 打包，原生应用体验（仅 5MB）

Windows：同样使用 Tauri，启动快速

iOS：App Store 可下载

Android：Google Play 或侧载 APK
5. 高度可定制，打造你的专属AI界面

主题切换：内置浅色/深色主题，支持自定义 CSS

多语言：支持中文、英文、日文等 18+ 种语言

API 代理：支持设置自定义底座 URL，解决网络问题

访问控制：可设置访问密码，分享给团队使用

插件系统：支持自定义功能和第三方集成
🎯 典型使用场景
场景一：个人AI助手，隐私数据不上云

用户：注重隐私的个人用户、自由职业者

痛点：使用官方 ChatGPT 担心对话记录被用于存储训练，且需要付费订阅 Plus。

解决方案：

部署 NextChat 到自己的服务器或 Vercel

接入自己的 OpenAI API Key（按量付费，更划算）

所有对话本地存储，完全隐私

可切换多个模型，根据任务选择最合适的

成本对比：ChatGPT Plus $20/月 vs NextChat + API 按量付费（轻度使用 < $10/月）
场景二：团队协作，统一AI工具入口

用户：小团队、创业公司、教育机构

痛点：团队成员各自购买 AI 订阅，成本高且无法共享 Prompt 和对话记录。

解决方案：

部署 NextChat 到团队服务器

设置访问密码，团队成员共享使用

使用同一个 API Key 池，集中管理成本

导出优质对话记录，建立团队知识库

实际案例：一个 10 人团队，使用 NextChat 自部署，每月 API 成本约 $50，人均 $5，远低于每人 $20 的 Plus 订阅。
场景三：开发者调试，快速测试不同模型

用户：AI 应用开发者、Prompt 工程师

痛点：需要在不同模型中测试同一 Prompt 的效果，但官方界面切换麻烦。

解决方案：

在 NextChat 中配置多个模型 API

同一对话中快速切换模型

使用对话分支功能，对比不同模型的回复

导出 Markdown 格式，方便整理测试报告
🌟 推荐理由

为什么我强烈推荐 NextChat？

1. 开源且活跃
项目在 GitHub 上开源，代码透明，社区活跃。你可以自己审查代码，确保没有后门。而且更新频繁，新模型支持速度快。

2. 性能极致优化
作为前端项目，NextChat 的性能优化做到了极致。首屏加载快，流式输出无延迟，即使在网络不佳的情况下也能流畅使用。相比其他 Web UI，NextChat 的响应速度是最快的之一。

3. 真正的跨平台
很多项目声称”跨平台”，但实际上只支持 Web。NextChat 提供了完整的桌面端和移动端应用，而且桌面端使用 Tauri 打包，体积小、启动快、内存占用低。

4. 隐私保护到位
所有对话记录保存在本地，不会上传到任何服务器。即使你部署在自己的服务器上，只要不配置云端同步，数据就只在用户设备上。对于注重隐私的用户来说，这一点非常重要。

5. 成本可控
使用官方 ChatGPT Plus 需要每月 $20，而 NextChat 按量付费，对于轻度使用者来说，每月可能只需要几美元。而且你可以根据不同任务选择不同模型，进一步控制成本。

我的使用心得：
我自己部署了 NextChat，接入了 OpenAI API 和 DeepSeek API。日常聊天用 DeepSeek（便宜），写代码用 GPT-4（准确），每月总成本不到 $10。界面美观，响应快速，是我每天使用最多的 AI 工具。

📥 下载地址
官方链接

🌐 官方网站：https://nextchat.app

📦 GitHub 仓库：https://github.com/ChatGPTNextWeb/NextChat

📱 iOS App：App Store 下载

🤖 Android App：Google Play 下载

💻 桌面端：GitHub Releases 下载

🚀 Vercel 一键部署：点击这里立即部署

文档与教程

📖 官方文档：https://docs.nextchat.app

💬 Discord 社区：加入讨论

🐛 问题反馈：GitHub Issues
🎬 总结

NextChat 是一款真正为用户着想的开源 AI 对话界面。它不追求花哨的功能，而是把速度、隐私、跨平台这三个核心需求做到了极致。

如果你：
- ✅ 希望拥有自己的私人 AI 助手
- ✅ 注重对话隐私，不想数据被上传
- ✅ 需要同时使用多个 AI 模型
- ✅ 想要降低成本，按量付费
- ✅ 需要在多个设备上使用统一的 AI 界面
那么，NextChat 绝对是你的 最佳选择！

5分钟部署，拥有一个完全属于你的AI助手 🚀
2026年6月2日

标签： LLM

📝 项目简介

⚙️ 安装要求和过程

环境要求

快速安装步骤

🌟 核心功能

🤖 多 LLM 提供商支持

🧠 300+ 预配置 AI 助手

📄 多格式文档处理

🔌 MCP 协议支持

🎨 可视化与开发工具

🚀 典型使用场景

场景一：多模型对比测试

场景二：本地 + 云端混合使用

场景三：企业知识库问答

💡 推荐理由

📥 下载地址

🖼️ 配图

📝 项目简介

⚙️ 安装要求和过程

环境要求

快速安装（3种方式）

API Key 配置

✨ 核心功能

1. 多模态输入支持

2. 多技术栈输出

3. 多 AI 模型对比

4. 实用辅助功能

🚀 典型使用场景

场景一：设计师交付前端代码

场景二：快速克隆竞品页面

场景三：屏幕录制转交互原型

💡 推荐理由

📥 下载地址

配图

项目简介

安装要求和过程

环境要求

快速安装步骤

核心功能

典型使用场景

场景一：开发者本地 AI 应用开发

场景二：企业私有化部署

推荐理由

下载地址

项目是什么

安装要求和过程

核心功能

典型使用场景

为什么推荐它

配图

项目简介

安装要求和过程

环境要求

快速安装步骤

核心功能

典型使用场景

场景一：企业级大模型API服务

场景二：本地开发与环境测试

推荐理由

下载地址

📌 项目简介

🔧 安装要求和过程

环境要求

快速安装步骤

🚀 核心功能

🌐 统一 LLM 调用

🛡️ AI 网关能力

🤖 智能体（A2A）支持

🔗 MCP 工具桥接

🏢 企业级特性

💡 典型使用场景

场景一：多模型切换，代码零改动

场景二：企业 LLM 调用管理与成本跟踪

场景三：MCP 工具无缝对接 LLM

💬 推荐理由

📦 下载地址

配图

项目简介

安装要求和过程