标签: LLM

  • 【开源推荐】Cherry Studio:47K+ Stars!多模型AI桌面客户端,一个应用搞定所有大模型

    【开源推荐】Cherry Studio:47K+ Stars!多模型AI桌面客户端,一个应用搞定所有大模型

    🍒 项目名称:Cherry Studio

    GitHub Stars:47.1K+

    🏷️ 开源协议:AGPL-3.0

    💻 支持平台:Windows / macOS / Linux

    🔗 GitHubgithub.com/CherryHQ/cherry-studio

    🌐 官网cherry-ai.com

    📝 项目简介

    Cherry Studio 是一款支持多种大语言模型提供商的开源AI桌面客户端,覆盖 Windows、Mac、Linux 三大平台。它提供智能聊天、自主智能体、300+ 预配置助手能力,可统一访问前沿大语言模型,是2026年最值得关注的 AI 生产力工具之一。

    无论你是用 OpenAI Gemini Claude 等云端模型,还是用 Ollama 跑本地模型,Cherry Studio 都能一站式搞定,告别在多个网页和客户端之间来回切换的烦恼。

    Cherry Studio 界面预览

    ⚙️ 安装要求和过程

    环境要求

    • 操作系统:Windows 10+、macOS 11+、主流 Linux 发行版
    • 无需额外环境配置:开箱即用,下载安装包直接运行
    • 网络要求:使用云端模型需配置 API Key;使用本地模型需提前安装 Ollama 或 LM Studio

    快速安装步骤

    1. 访问 GitHub Releases 页面,下载对应系统的安装包
    2. Windows:下载 .exe 安装包,双击运行
    3. macOS:下载 .dmg 文件,拖入 Applications 文件夹
    4. Linux:下载 .AppImage.deb / .rpm 包安装
    5. 启动后,在设置中配置模型 API Key 或连接本地 Ollama

    🌟 核心功能

    🤖 多 LLM 提供商支持

    支持 OpenAI、Gemini、Anthropic、Claude 等主流云端大模型,同时支持 Ollama、LM Studio 等本地模型,一个客户端搞定所有模型。

    🧠 300+ 预配置 AI 助手

    内置丰富领域的专业 AI 助手模板,涵盖编程、写作、翻译、分析等场景,开箱即用,也支持自定义助手创建。

    📄 多格式文档处理

    支持文本、图片、Office 文档、PDF 等多格式文件处理,内置 RAG 知识库能力,让 AI 基于你的文档作答。

    🔌 MCP 协议支持

    支持模型上下文协议(MCP)服务器,可扩展 AI 能力边界,接入专业工具和数据源。

    🎨 可视化与开发工具

    支持 Mermaid 图表可视化、代码语法高亮、全局搜索、话题管理系统,满足专业用户的需求。

    Cherry Studio 功能展示

    🚀 典型使用场景

    场景一:多模型对比测试

    研究者或开发者需要同时对比 GPT-4.1、Claude 4 Opus、Gemini 2.5 Pro 在同一任务上的表现?Cherry Studio 支持多模型同时对话,同一条消息发送给多个模型,结果并排展示,轻松找出最强模型。

    场景二:本地 + 云端混合使用

    日常聊天用免费的本地模型(Ollama + Qwen3),重要任务切换云端前沿模型。Cherry Studio 统一入口管理,无需在多个工具间切换,数据隐私和模型能力兼得。

    场景三:企业知识库问答

    上传公司文档、技术手册到 Cherry Studio 知识库,结合 RAG 技术,让 AI 基于企业内部知识精准作答,打造专属的企业 AI 助手。

    💡 推荐理由

    作为一款开源免费的 AI 桌面客户端,Cherry Studio 最大的价值在于统一——统一了模型入口、统一了对话历史、统一了工具生态。

    在此之前,用 OpenAI 要去网页,用 Claude 要开另一个网页,本地 Ollama 又是命令行,多模型对比更是麻烦。Cherry Studio 把这些全部整合到一个窗口里,还加上了知识库、MCP 工具扩展、300+ 助手模板,真正做到了”一个客户端,所有 AI 能力”。

    尤其值得一提的是它的开箱即用体验——无需配置 Python 环境,无需折腾依赖,下载安装包,点几下鼠标配置 Key,马上就能用。对非技术用户非常友好。

    如果你同时满足以下任意一点,强烈推荐试试 Cherry Studio:

    • 同时使用多个 AI 模型(GPT/Claude/Gemini/本地模型)
    • 希望 AI 能读取并处理你的本地文档
    • 想要一个统一、美观、功能完整的 AI 客户端
    • 重视数据隐私,希望本地运行 AI

    📥 下载地址

    🍒 GitHub 仓库
    🌐 官方网站
    📦 下载安装包


    📌 本文由 WorkBuddy AI 自动化任务 定时发布,选题自 GitHub 热门 AI 开源项目。欢迎关注本站「开源项目」栏目,每周精选优质 AI 开源工具深度介绍。

  • screenshot-to-code:72.8K Stars!截图秒变代码,设计师和前端开发者必备神器

    🖼️ 配图

    screenshot-to-code 演示
    screenshot-to-code – 截图秒变可用代码

    📝 项目简介

    screenshot-to-code 是一款 AI 驱动的 UI 转代码神器,上传网页截图、线框图、Figma 设计稿甚至屏幕录制,AI 即可将其转化为干净可用的前端代码。项目在 GitHub 上已获得 72.8K+ Stars,是设计师和前端开发者必备的效率工具。

    ⚙️ 安装要求和过程

    环境要求

    • Node.js 18+(前端运行依赖)
    • Python 3.10+(后端运行依赖,推荐用 Poetry 管理)
    • AI 模型 API Key:OpenAI / Anthropic / Google Gemini 至少其一
    • Yarn(前端包管理)

    快速安装(3种方式)

    方式一:直接使用官方托管服务(推荐试用)

    # 无需安装,直接访问官网使用
    https://screenshot-to-code.com
    

    方式二:本地源码运行(推荐开发使用)

    # 克隆仓库
    git clone https://github.com/abi/screenshot-to-code.git
    cd screenshot-to-code
    
    # 启动后端
    cd backend
    echo "OPENAI_API_KEY=sk-your-key" > .env
    poetry install && poetry run uvicorn main:app --reload --port 7001
    
    # 新终端,启动前端
    cd frontend
    yarn && yarn dev
    

    启动后访问 http://localhost:5173 即可使用。

    方式三:Docker 一键部署

    echo "OPENAI_API_KEY=sk-your-key" > .env
    docker-compose up -d --build
    

    启动后访问 http://localhost:5173

    API Key 配置

    # backend/.env 配置示例
    OPENAI_API_KEY=sk-your-openai-key
    ANTHROPIC_API_KEY=your-anthropic-key
    GEMINI_API_KEY=your-gemini-key
    
    # 国内用户可配置代理
    OPENAI_BASE_URL=https://your-proxy-url/v1
    

    ✨ 核心功能

    1. 多模态输入支持

    • 支持上传网页截图,一键转换为对应代码
    • 支持Figma 设计稿直接导入转代码
    • 支持线框图/手绘草图转可用 UI
    • 支持屏幕录制转可交互原型(最新功能!)

    2. 多技术栈输出

    • HTML + Tailwind CSS(默认,最快)
    • React + Tailwind(最流行)
    • Vue + Tailwind
    • Bootstrap
    • Ionic + Tailwind(移动端)

    3. 多 AI 模型对比

    • 支持同时配置 OpenAI、Claude、Gemini 多个厂商 API
    • 可在界面上切换模型,对比不同模型的生成效果
    • 默认支持:GPT-5.5、Claude Opus 4.8、Gemini 3 Flash

    4. 实用辅助功能

    • 支持代理配置,国内用户可通过 OPENAI_BASE_URL 配置代理
    • 支持自定义后端地址,可对接自己部署的后端服务
    • 支持图像生成模型 z-image-turbo(基于 Replicate)

    🚀 典型使用场景

    场景一:设计师交付前端代码

    设计师完成 Figma 设计稿后,导入 screenshot-to-code,选择 React + Tailwind 技术栈,10 秒内获得可用前端代码,直接交付给开发团队,减少沟通成本。

    # 使用流程
    1. 访问 https://screenshot-to-code.com
    2. 上传 Figma 设计稿截图或输入 Figma 链接
    3. 选择技术栈:React + Tailwind
    4. 点击生成,等待 10-30 秒
    5. 复制生成的代码,直接用到项目中
    

    场景二:快速克隆竞品页面

    看到竞争对手的漂亮落地页,截图后上传,选择 HTML + Tailwind,AI 快速生成还原度 90%+ 的代码,二次修改即可自用。

    # 进阶技巧:截图 + 文字描述双保险
    1. 截取目标网页全屏截图
    2. 上传截图
    3. 在提示词框补充:这是一款 SaaS 产品落地页,需要保留原设计的渐变背景和动画效果
    4. 生成后下载代码,本地微调
    

    场景三:屏幕录制转交互原型

    录制 App 操作流程的屏幕视频,上传后 AI 生成可交互的 HTML 原型,用于产品演示或用户测试。

    💡 推荐理由

    作为一款”截图即代码”的 AI 工具,screenshot-to-code 是我用过的最实用的前端辅助工具之一:

    1. 还原度惊人:使用 Claude Opus 或 GPT-5.5 生成,还原度可达 90%+,Tailwind 类名使用准确。
    2. 学习神器:新手前端可以截图优秀网站,看 AI 如何实现的,学习高级 CSS 技巧和组件设计。
    3. 免费开始:官方托管服务 https://screenshot-to-code.com 提供免费额度,无需配置 API Key 即可试用。
    4. 多模型对比:同时配置多个厂商 Key,同样截图用不同模型生成,选最优结果。
    5. 开源可自建:MIT 协议,可内网部署,不用担心设计稿泄露。

    注意事项:不推荐使用 Ollama 本地模型运行,生成质量较差;国内用户需要配置 OpenAI 代理或使用 Gemini API(无需代理)。

    总体而言,screenshot-to-code 是设计师、前端开发者、产品经理必备的效率工具。免费试用 + 开源自建 + 多模型支持,性价比极高。

    📥 下载地址


    本文由 WorkBuddy 自动发布,选题自 GitHub 热门 AI 开源项目。如有问题,欢迎在评论区留言讨论。

  • Ollama:170k Stars!本地LLM运行工具,让AI模型在本地飞速运行

    配图

    Ollama Logo
    Ollama – 本地LLM运行工具

    项目简介

    Ollama 是一个轻量级的本地大语言模型(LLM)运行工具,让你能够在自己的设备上轻松部署和运行各种开源大语言模型,无需将数据发送到外部服务器,完全保护隐私。

    截至2026年,Ollama 已在 GitHub 获得 17万+ Stars,成为最广泛使用的本地LLM运行时,Docker Hub下载量超过1亿次。

    安装要求和过程

    环境要求

    • 操作系统:Linux(Ubuntu 20.04+)、macOS 11+、Windows 10(需WSL2)
    • 内存:8GB以上(运行7B模型),16GB以上(运行13B模型),32GB以上(运行33B+模型)
    • 存储:至少10GB可用空间(用于存放模型文件)
    • GPU:可选,NVIDIA GPU(CUDA)、AMD GPU(ROCm)或苹果M系列芯片可加速推理

    快速安装步骤

    macOS/Linux 一键安装:

    # Linux/macOS
    curl -fsSL https://ollama.com/install.sh | sh
    
    # macOS 也可用 Homebrew
    brew install ollama

    Windows 安装:

    1. 访问 https://ollama.com/download 下载 Windows 安装包
    2. 运行 OllamaSetup.exe,按照提示完成安装
    3. 打开命令提示符或PowerShell,输入 ollama --version 验证安装

    Docker 安装(推荐服务器环境):

    docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

    核心功能

    1. 一键运行本地模型:支持一键拉取和运行100+开源大语言模型,包括 Llama 3.3、Mistral、Qwen、Phi、DeepSeek R1 等热门模型。
    2. OpenAI API 兼容:原生提供兼容 OpenAI API 格式的 REST API(默认端口11434),可直接对接现有基于 OpenAI 生态开发的应用和工具。
    3. 智能硬件加速:自动适配 NVIDIA(CUDA)、AMD(ROCm)、苹果 M 系列芯片(Metal)的 GPU 加速,大幅提升推理速度。
    4. 模型自定义配置:支持通过 Modelfile 自定义模型参数(温度、上下文长度、系统提示词等),轻松创建专属模型。
    5. 多模态支持:最新版本支持视觉模型(如 Llama 3.2 Vision),可处理图像输入,实现图文混合推理。

    典型使用场景

    场景一:开发者本地 AI 应用开发

    作为开发者,你可以使用 Ollama 在本地运行 LLM,用于:

    • 开发和测试 AI 应用,无需支付 API 费用
    • 对接 Open-WebUI 等前端界面,搭建私有化 AI 聊天助手
    • 通过 API 集成到自己的应用中,实现本地智能推理

    示例:用 Ollama 运行 Llama 3.3 8B 模型,通过 OpenAI 兼容 API 为本地应用添加 AI 能力。

    场景二:企业私有化部署

    对于企业用户,Ollama 提供了:

    • 数据隐私保护:所有推理过程在本地完成,敏感数据无需上传云端
    • 零 API 成本:无需为每次 API 调用付费,适合高频调用场景
    • 离线可用:模型下载后,无需联网即可使用,适合内网环境

    推荐理由

    我个人从2025年开始使用 Ollama,它已经成为我本地 AI 开发的标配工具。推荐理由如下:

    1. 极简体验:一条命令就能安装,一条命令就能运行模型,对新手极其友好。
    2. 生态丰富:支持对接 Open-WebUI、Continue(VS Code 插件)、LangChain 等50+主流工具,可玩性极高。
    3. 性能优秀:支持 4-bit/8-bit 量化,即使在中端笔记本上也能流畅运行 7B 参数的模型。
    4. 活跃社区:GitHub 上40000+社区集成,几乎任何你能想到的工作流,都有人已经做好了集成方案。

    如果你想要一个简单、快速、隐私安全的本地 LLM 运行方案,Ollama 绝对是首选。

    下载地址

  • Headroom:16.4k Stars!LLM上下文压缩层,最高省95% token消耗

    Headroom:16.4k Stars!LLM上下文压缩层,最高省95% token消耗

    用AI Agent干活,token消耗像流水。工具输出一多,日志一长,上下文就爆了。Headroom就是来解决这个问题的。

    Headroom

    项目是什么

    Headroom是一个面向AI Agent的上下文压缩层,在内容进入LLM之前先做压缩处理。工具输出、日志、RAG检索结果、代码文件、对话历史,统统可以压。官方数据说能省60-95%的token,而且答案质量不降。

    安装要求和过程

    要求Python 3.10以上。安装本身很简单:

    # 全量安装(推荐)
    pip install "headroom-ai[all]"
    
    # Node.js版本
    npm install headroom-ai
    
    # Docker
    docker pull ghcr.io/chopratejas/headroom:latest
    

    如果你想按需安装,可以只装指定模块:[proxy]、[mcp]、[ml]、[code]、[memory]、[relevance]、[image],不用全量。装完直接 headroom wrap claude 就能把Claude Code包起来用,零代码修改。

    核心功能

    • 三种接入模式:当作Python/TypeScript库直接调用 compress(),或者跑一个本地代理让任意应用零改动接入,或者直接wrap主流AI编码工具(Claude Code、Cursor、Aider、Copilot都支持)。
    • MCP服务器模式:提供了 headroom_compressheadroom_retrieveheadroom_stats 三个工具,可以接进任何MCP客户端。对用Claude Desktop或者Cline的人很方便。
    • 可逆压缩(CCR):原始内容不会删,LLM觉得信息不够的时候可以通过工具调用把原始内容拿回来。不是有损压缩,是”按需取用”。
    • 跨Agent共享内存:多个Agent(Claude、Codex、Gemini)可以共享同一套上下文存储,自动去重。做多Agent协作的人会喜欢这个功能。
    • 自动学习:跑一下 headroom learn,它会去分析失败的会话,把修正规则自动写进 CLAUDE.md / AGENTS.md 这些配置文件。相当于Agent自己进化。

    典型使用场景

    先看数据。官方跑了一些真实工作负载的压缩测试:

    工作负载类型 压缩前token 压缩后token 压缩率
    代码搜索(100条结果) 17,765 1,408 92%
    SRE故障排查 65,694 5,118 92%
    GitHub Issue分类 54,174 14,761 73%

    实际场景里,最爽的是这两个:

    第一,长日志排查。SRE场景里把6万多token的日志压缩到5千多,压缩率92%,而且LLM给出的排查结论和质量没差。这意味着你可以用更便宜的模型、更短的上下文窗口,处理同样复杂的任务。

    第二,RAG场景。把检索回来的大量chunk先压缩再塞给LLM,原本只能放5条chunk的上下文窗口,现在能放20条。检索质量上去了,token消耗反而下来了。

    为什么推荐它

    我试过几个类似的方案,RTK、lean-ctx,还有OpenAI自己出的压缩方案。Headroom最打动我的是”可逆压缩”这个设计。很多压缩方案是单向的,压完原始信息就没了,LLM判断需要细节的时候拿不到原文。Headroom的CCR机制让LLM可以按需取回原始内容,这个设计很聪明。

    另外就是接入成本真的低。如果你用的是Claude Code或者Cursor,一条命令 headroom wrap claude 就搞定,不需要改代码,不需要重新配置,直接生效。对于已经用上这些工具的人来说,几乎是零成本的优化。

    本周Headroom在GitHub周增长榜排第一,新增了13,000+ star。16.4k的总star数不算高,但增长曲线很陡,说明用过的人都在往上加。这种”开发者口碑传播”的项目,通常比营销驱动的项目更值得跟。


    GitHubgithub.com/chopratejas/headroom
    官网文档headroom-docs.vercel.app
    协议:Apache 2.0(可商用)

  • vLLM:82.1k Stars!高性能LLM推理引擎,让大模型部署又快又省

    vLLM:82.1k Stars!高性能LLM推理引擎,让大模型部署又快又省





    vLLM:82.1k Stars!高性能LLM推理引擎,让大模型部署又快又省

    配图

    vLLM Logo

    项目简介

    vLLM 是一个面向所有人的易用、快速、低成本的LLM服务引擎,提供高吞吐量、内存高效的推理能力,让大语言模型的生产部署变得简单高效。

    安装要求和过程

    环境要求

    • 操作系统:Linux(推荐)或 macOS
    • Python:3.8 – 3.12
    • GPU:NVIDIA GPU(CUDA 7.0+)或 AMD GPU(ROCm 5.6+)
    • CPU:x86、ARM 或 PowerPC(支持 CPU 推理)

    快速安装步骤

    方法一:使用 uv 安装(推荐)

    uv pip install vllm
        

    方法二:使用 pip 安装

    pip install vllm
        

    方法三:从源码构建

    git clone https://github.com/vllm-project/vllm.git
        cd vllm
        pip install -e .
        

    验证安装

    python -c "import vllm; print(vllm.__version__)"
        

    核心功能

    1. 业界领先的推理吞吐量
      基于 PagedAttention 技术高效管理注意力键值内存,支持连续批处理、分块预填充、前缀缓存等优化技术,单GPU即可实现超高并发推理服务。
    2. 丰富的量化方案支持
      原生支持 FP8、MXFP8/MXFP4、NVFP4、INT8、INT4、GPTQ/AWQ、GGUF 等多种量化格式,在保证模型质量的同时大幅降低显存占用和推理延迟。
    3. 无缝的 Hugging Face 集成
      直接加载 Hugging Face 上 200+ 模型架构,包括 Llama、Qwen、Gemma、Mixtral、DeepSeek-V3 等热门模型,无需任何适配代码。
    4. 分布式推理支持
      支持张量并行、流水线并行、数据并行、专家并行、上下文并行,可轻松扩展到大模型多卡、多机部署场景。
    5. 多模态模型支持
      不仅支持纯文本LLM,还支持 LLaVA、Qwen-VL、Pixtral 等多模态模型,满足图文理解、视觉问答等复杂场景需求。

    典型使用场景

    场景一:企业级大模型API服务

    某 AI 创业公司需要将 Qwen2.5-72B 模型部署为 OpenAI 兼容的 API 服务,供前端应用调用。

    解决方案:使用 vLLM 启动兼容 OpenAI API 的服务器,仅需一行命令:

    vllm serve Qwen/Qwen2.5-72B-Instruct --tensor-parallel-size 4
        

    启动后自动提供与 OpenAI 完全兼容的 API,现有代码无需修改即可切换到底层模型,同时享受 vLLM 带来的 3-5倍吞吐量提升。

    场景二:本地开发与环境测试

    开发者需要在本地机器上快速测试不同 LLM 的能力,评估哪个模型最适合自己的应用场景。

    解决方案:使用 vLLM 的 Python API 或 LLM 类,像使用 transformers 一样简单:

    from vllm import LLM, SamplingParams
        
        # 初始化模型
        llm = LLM(model="meta-llama/Llama-3.1-8B-Instruct")
        
        # 设置生成参数
        params = SamplingParams(temperature=0.7, max_tokens=256)
        
        # 批量推理
        prompts = ["解释量子计算", "写一个快速排序"]
        outputs = llm.generate(prompts, params)
        
        for output in outputs:
            print(output.prompt, output.outputs[0].text)
        

    推荐理由

    作为一名经常需要部署和测试大模型的开发者,vLLM 已经成为我工具箱里不可或缺的利器。之前每次部署新模型都要折腾好几天,要么显存不够,要么吞吐量上不去,要么就是跟各种推理框架的适配问题。

    vLLM 最大的价值在于它真的能做到开箱即用。你从 Hugging Face 上找到的模型,基本上扔给 vLLM 就能跑,不用自己写适配代码,不用深入研究模型架构。特别是它的 PagedAttention 技术,真的把显存利用率拉满了,同样一张 A100,用 vLLM 能服务的并发请求数是之前的好几倍。

    另外很赞的一点是它的量化支持特别全面。现在模型越来越大,不量化根本跑不起来。vLLM 支持的量化格式特别多,AWQ、GPTQ、GGUF 这些主流的都有,而且量化后的精度损失控制得很好,实际业务里基本感觉不出来。

    如果你正在做 LLM 相关的项目,不管是创业做 AI 产品,还是企业里搭私有化部署,vLLM 都值得一试。它现在基本上是业界标准了,82.1k 的 Stars 不是白来的。

    下载地址


    如果你觉得这个项目有帮助,欢迎到 GitHub 上点个 Star,支持开源社区的发展!


  • LiteLLM:49.4K Stars!统一100+ LLM API网关,让多模型调用不再碎片化

    LiteLLM:49.4K Stars!统一100+ LLM API网关,让多模型调用不再碎片化

    LiteLLM

    📌 项目简介

    LiteLLM 是 BerriAI 团队维护的开源 AI 网关,为 100+ 大语言模型提供统一访问接口,支持 OpenAI 格式调用,内置成本跟踪、安全防护、负载均衡等企业级能力。Y Combinator W23 孵化项目,Stripe、Netflix、Google ADK 等大厂均在用。

    🔧 安装要求和过程

    环境要求

    • Python 3.8+ 环境
    • 推荐使用 uv 包管理器(也可使用 pip
    • 本地开发额外依赖:docker-compose(用于启动数据库、Prometheus 等依赖服务)

    快速安装步骤

    # 1. 克隆仓库
    git clone https://github.com/BerriAI/litellm.git && cd litellm
    
    # 2. 安装开发依赖
    make install-dev
    
    # 3. 初始化虚拟环境
    python -m venv .venv
    # Linux/Mac:
    source .venv/bin/activate
    # Windows:
    .venv\Scripts\activate
    uv sync --all-extras --group proxy-dev
    
    # 4. 生成 Prisma 客户端
    uv run prisma generate && prisma generate
    
    # 5. 启动本地服务(后端)
    python litellm/proxy/proxy_cli.py
    
    # 6. 启动前端(另开终端)
    cd ui/litellm-dashboard && npm install && npm run dev

    💡 Docker 快速启动:

    docker run -v $(pwd)/litellm_config.yaml:/app/config.yaml -p 4000:4000 berriai/litellm:latest

    🚀 核心功能

    🌐 统一 LLM 调用

    支持 100+ LLM 厂商(OpenAI、Anthropic、AWS Bedrock、Azure、Google Vertex AI、Cohere、HuggingFace、vLLM、NVIDIA NIM 等),所有调用兼容 OpenAI API 格式,切换模型无需修改业务代码。

    🛡️ AI 网关能力

    虚拟 API 密钥管理、多租户成本跟踪、负载均衡、重试/fallback 逻辑、安全防护规则、调用日志,并提供 管理后台 UI可视化监控。

    🤖 智能体(A2A)支持

    支持调用 LangGraph、Azure AI Foundry、Bedrock AgentCore 等平台的智能体,提供 A2A 协议适配,可统一接入各类智能体服务。

    🔗 MCP 工具桥接

    可将 MCP 服务器的工具转换为 OpenAI 格式 tool 定义,直接对接任意 LLM;支持通过网关统一代理 MCP 工具调用。

    🏢 企业级特性

    单点登录(SSO)、自定义集成、专属支持、SLA 保障、功能优先级定制。高性能:1k RPS 场景下 P95 延迟仅 8ms

    💡 典型使用场景

    场景一:多模型切换,代码零改动

    开发阶段使用 GPT-4o 快速验证,生产环境切换到 Claude Sonnet,只需修改 model 参数,业务代码无需任何改动:

    # 同一套代码,切换不同模型
    from litellm import completion
    
    response = completion(
        model="openai/gpt-4o",
        messages=[{"role": "user", "content": "Hello!"}]
    )
    
    response = completion(
        model="anthropic/claude-sonnet-4-20250514",
        messages=[{"role": "user", "content": "Hello!"}]
    )

    场景二:企业 LLM 调用管理与成本跟踪

    为不同团队/项目分配虚拟 API 密钥,按维度统计 LLM 调用花费,设置安全防护规则(如屏蔽敏感词、限制调用频率),所有调用日志可视化。

    知名用户包括:Stripe、Netflix、Google ADK、Grepile、OpenHands、OpenAI Agents SDK。

    场景三:MCP 工具无缝对接 LLM

    通过 LiteLLM 的 MCP 工具桥接功能,可以将任何 MCP 服务器的工具转换为 OpenAI 格式,让任意 LLM 都能调用这些工具,无需为每个 LLM 单独适配。

    💬 推荐理由

    LiteLLM 解决了 AI 应用开发中最痛点的问题之一——多厂商 LLM 接口不统一。以前需要为每个厂商写一套调用代码,现在只需一套 OpenAI 格式代码,通过 model="anthropic/claude-sonnet-4-20250514" 这样的格式就能无缝切换。

    对于需要调用多个 LLM 的应用(比如 AI Agent 系统),LiteLLM 几乎是标配组件。Stripe、Netflix、Google ADK 等大厂都在用,说明其稳定性和性能已经过生产验证。

    最打动我的一点:它不只做模型路由,还内置了成本跟踪、负载均衡、安全防护等企业级功能,真正把”调用 LLM”这件事做成了一个完整的网关产品,而不只是一个简单的路由库。

    LiteLLM – 让100+ LLM 调用,从此只有一种方式。

  • supermemory:25.6K Stars!AI时代记忆引擎,让AI真正记住你

    supermemory:25.6K Stars!AI时代记忆引擎,让AI真正记住你

    配图

    supermemory


    项目简介

    supermemory 是一个专为AI时代设计的记忆引擎,解决AI助手”转头就忘”的痛点。它能自动从对话中提取事实、维护用户画像、支持混合搜索(RAG+记忆),在LongMemEval、LoCoMo、ConvoMem三大基准测试中均排名第一。


    安装要求和过程

    环境要求

    环境 要求
    Node.js v18+
    Python 3.9+
    API Key supermemory.ai 控制台获取

    快速安装

    方式一:MCP服务器(推荐,无需写代码)

    # Claude/Cursor/Windsurf 一键安装
    npx -y install-mcp@latest https://mcp.supermemory.ai/mcp --client claude --oauth=yes
    

    方式二:API调用(开发者)

    # Node.js/TypeScript
    npm install supermemory
    
    # Python
    pip install supermemory
    

    方式三:官方应用(零代码)

    访问 app.supermemory.ai 直接使用,支持浏览器扩展、Discord机器人等多种接入方式。


    核心功能

    功能 说明
    自动记忆管理 从对话中自动提取事实,处理信息矛盾(如”搬到旧金山”覆盖”住在纽约”),自动遗忘过期内容,单次调用约50ms
    用户画像维护 自动维护稳定事实(偏好、习惯)+ 近期活动上下文,两大维度合并,让AI真正”认识你”
    混合搜索 单条查询同时支持RAG(知识库检索)+ 记忆检索,一次性返回文档结果和个性化上下文
    多平台连接器 支持Google Drive、Gmail、Notion、OneDrive、GitHub等平台自动同步,支持实时webhook更新
    多模态内容提取 支持PDF、图片(OCR)、视频(转录)、代码(AST感知分块)等内容的上传和解析

    典型使用场景

    场景一:给Claude/Cursor加上”永久记忆”

    通过MCP服务器接入后,AI助手会自动调用 memory 工具保存重要信息,调用 recall 工具搜索历史记忆。你说出”我喜欢TypeScript函数式编程”,AI下次写代码时会自动遵循这个偏好,不再需要每次重复背景。

    场景二:为AI产品构建上下文栈

    通过单个API调用获得完整的上下文能力,无需自己配置向量数据库、embedding管道、分块策略。Vercel AI SDK、LangChain、LangGraph、OpenAI Agents SDK等主流框架均可直接嵌入,几行代码完成集成。

    场景三:企业知识库+个人记忆融合

    supermemory的混合搜索模式,让AI既能检索企业知识库文档(RAG),又能记住每个用户的个性化偏好和历史对话(记忆),两种能力融合,特别适合企业AI助手、客服机器人等场景。


    推荐理由

    AI助手的”失忆症”是 currently 最大的体验短板——每次新对话都要重新介绍背景,让人疲惫。supermemory 把这个痛点打穿了。

    我实际测试下来,最打动我的是混合搜索设计:它不是简单的RAG检索,而是把”知识库文档”和”用户记忆”放在同一次查询里返回,AI的回答既有知识依据、又有个性化上下文,体验差距非常明显。

    另外,MCP服务器的接入方式对普通用户极其友好——一条命令让Claude Desktop、Cursor、Windsurf等工具全部获得持久记忆,不需要写任何代码,这才是AI基础设施该有的样子。

    三大基准测试全部排名第一,说明这个方向的技术路线是扎实的,不是噱头。


    下载地址

    来源 链接
    GitHub仓库 github.com/supermemoryai/supermemory(25.6K ⭐)
    官方网站 supermemory.ai
    文档中心 supermemory.ai/docs
    控制台 console.supermemory.ai
    npm包 npmjs.com/package/supermemory
    PyPI包 pypi.org/project/supermemory

    开源协议:MIT | 主要语言:TypeScript | 最后更新:2026年6月

  • Chroma:43.1K Stars!开源向量数据库,让AI应用拥有长期记忆

    Chroma Banner

    开源向量数据库 · 让AI拥有长期记忆

    📦 项目简介

    Chroma 是专为AI应用打造的开源嵌入式向量数据库,让大模型拥有”长期记忆”。它通过简单的Python/JavaScript API,帮助你快速存储、查询和检索文本Embedding向量,是构建RAG(检索增强生成)应用的首选基础设施。

    🔗 GitHub:chroma-core/chroma ⭐ Stars:43.1K+ 📄 协议:Apache 2.0

    🔧 安装要求和过程

    环境要求

    依赖 要求
    Python ≥ 3.8(推荐 3.10+)
    内存 ≥ 4GB(生产环境建议 8GB+)
    存储 ≥ 1GB 可用空间
    可选后端 SQLite(默认)、DuckDB(分析场景)

    快速安装(3行代码搞定)

    pip install chromadb
    
    import chromadb
    client = chromadb.Client()  # 开箱即用!

    Docker 部署(生产推荐)

    docker run -d --name chroma \
      -p 8000:8000 \
      ghcr.io/chroma-core/chroma:latest

    部署后访问 http://localhost:8000 即可使用 HTTP API。

    🔩 核心功能

    功能 说明
    多模态向量搜索 支持文本、图像、音频的 Embedding 存储与相似度检索
    多客户端 SDK Python、JavaScript/TypeScript、REST API 全覆盖
    全文+向量混合搜索 结合关键词匹配与语义搜索,提升召回率
    内置 Embedding 函数 默认集成 Sentence Transformers,无需外部 API
    持久化存储 支持本地持久化、DuckDB 后端,数据不丢失

    💡 典型使用场景

    场景一:RAG(检索增强生成)应用

    将企业文档、知识库存入 Chroma,用户提问时先检索相关片段,再送给 LLM 生成答案。相比直接问 LLM,准确率提升 40%+,幻觉大幅减少。

    # RAG 核心代码(不到 20 行!)
    collection = client.create_collection("docs")
    collection.add(
        documents=["公司报销流程...", "年假申请..."],
        ids=["1", "2"]
    )
    results = collection.query(query_texts=["如何报销?"], n_results=1)
    # results 包含最相关的文档片段

    场景二:AI Agent 长期记忆

    让 AutoGPT、CrewAI 等 Agent 框架拥有跨会话记忆。将历史对话的 Embedding 存入 Chroma,下次对话时自动检索上下文,实现”越用越懂你”。

    场景三:语义推荐系统

    电商、内容平台的”猜你喜欢”,用 Chroma 存储商品/内容向量,用户行为向量实时检索最相似物品,推荐相关度远超协同过滤。

    🌟 推荐理由

    Chroma 是我见过最易上手的向量数据库,没有之一。不需要学 SQL,不需要配置复杂集群,pip install 之后 3 行代码就能跑起来。

    相比 Pinecone 等托管服务,Chroma 完全开源、可自托管,数据不出门,合规零风险。相比 Faiss,它提供了完整的 CRUD API 和持久化,不用每次重启都重新建索引。

    如果你正在做 RAG、AI 搜索、推荐系统,或者想给 Agent 加上记忆,Chroma 是目前开发体验最好的选择。LangChain、LlamaIndex、Supabase 都已官方集成,生态非常成熟。

    📥 下载地址

    渠道 链接 / 命令
    GitHub 仓库 github.com/chroma-core/chroma
    官网文档 docs.trychroma.com
    PyPI 安装 pip install chromadb
    npm 安装 npm install chromadb
    Docker 镜像 ghcr.io/chroma-core/chroma:latest

    — 开源项目第52期 | 夜野飞云 —

  • Chroma:43.1K Stars!开源向量数据库,让AI应用拥有长期记忆

    Chroma:43.1K Stars!开源向量数据库,让AI应用拥有长期记忆

    Chroma Banner

    开源向量数据库 · 让AI拥有长期记忆

    📦 项目简介

    Chroma 是专为AI应用打造的开源嵌入式向量数据库,让大模型拥有”长期记忆”。它通过简单的Python/JavaScript API,帮助你快速存储、查询和检索文本Embedding向量,是构建RAG(检索增强生成)应用的首选基础设施。

    🔗 GitHub:chroma-core/chroma ⭐ Stars:43.1K+ 📄 协议:Apache 2.0

    🔧 安装要求和过程

    环境要求

    依赖 要求
    Python ≥ 3.8(推荐 3.10+)
    内存 ≥ 4GB(生产环境建议 8GB+)
    存储 ≥ 1GB 可用空间
    可选后端 SQLite(默认)、DuckDB(分析场景)

    快速安装(3行代码搞定)

    pip install chromadb
    
    import chromadb
    client = chromadb.Client()  # 开箱即用!

    Docker 部署(生产推荐)

    docker run -d --name chroma \
      -p 8000:8000 \
      ghcr.io/chroma-core/chroma:latest

    部署后访问 http://localhost:8000 即可使用 HTTP API。

    🔩 核心功能

    功能 说明
    多模态向量搜索 支持文本、图像、音频的 Embedding 存储与相似度检索
    多客户端 SDK Python、JavaScript/TypeScript、REST API 全覆盖
    全文+向量混合搜索 结合关键词匹配与语义搜索,提升召回率
    内置 Embedding 函数 默认集成 Sentence Transformers,无需外部 API
    持久化存储 支持本地持久化、DuckDB 后端,数据不丢失

    💡 典型使用场景

    场景一:RAG(检索增强生成)应用

    将企业文档、知识库存入 Chroma,用户提问时先检索相关片段,再送给 LLM 生成答案。相比直接问 LLM,准确率提升 40%+,幻觉大幅减少。

    # RAG 核心代码(不到 20 行!)
    collection = client.create_collection("docs")
    collection.add(
        documents=["公司报销流程...", "年假申请..."],
        ids=["1", "2"]
    )
    results = collection.query(query_texts=["如何报销?"], n_results=1)
    # results 包含最相关的文档片段

    场景二:AI Agent 长期记忆

    让 AutoGPT、CrewAI 等 Agent 框架拥有跨会话记忆。将历史对话的 Embedding 存入 Chroma,下次对话时自动检索上下文,实现”越用越懂你”。

    场景三:语义推荐系统

    电商、内容平台的”猜你喜欢”,用 Chroma 存储商品/内容向量,用户行为向量实时检索最相似物品,推荐相关度远超协同过滤。

    🌟 推荐理由

    Chroma 是我见过最易上手的向量数据库,没有之一。不需要学 SQL,不需要配置复杂集群,pip install 之后 3 行代码就能跑起来。

    相比 Pinecone 等托管服务,Chroma 完全开源、可自托管,数据不出门,合规零风险。相比 Faiss,它提供了完整的 CRUD API 和持久化,不用每次重启都重新建索引。

    如果你正在做 RAG、AI 搜索、推荐系统,或者想给 Agent 加上记忆,Chroma 是目前开发体验最好的选择。LangChain、LlamaIndex、Supabase 都已官方集成,生态非常成熟。

    📥 下载地址

    渠道 链接 / 命令
    GitHub 仓库 github.com/chroma-core/chroma
    官网文档 docs.trychroma.com
    PyPI 安装 pip install chromadb
    npm 安装 npm install chromadb
    Docker 镜像 ghcr.io/chroma-core/chroma:latest

    — 开源项目第52期 | 夜野飞云 —

  • NextChat:88K Stars!轻量极速的跨平台AI对话界面,让AI助手触手可及

    NextChat:88K Stars!轻量极速的跨平台AI对话界面,让AI助手触手可及

    NextChat 是一款轻量极速的开源AI对话界面,支持 GPT-4、Claude 3、Gemini Pro 等十余种主流大模型,提供 Web、iOS、Mac、Android 全平台客户端,让你一键拥有属于自己的私人AI助手。

    NextChat 界面预览

    NextChat 优雅的对话界面

    🚀 项目简介

    NextChat(原名 ChatGPT-Next-Web)是一个基于 Next.js + React 构建的跨平台 AI 聊天机器人 Web UI。项目从2023年发布至今,已获得 88K+ Stars,成为 GitHub 上最受欢迎的开源 AI 对话前端之一。

    它的设计理念是:快、轻、美。整个应用打包后仅约 5MB(Tauri 桌面端),网页端更是做到了极致的加载速度和响应体验。

    NextChat 多模型支持

    📦 安装要求和过程

    环境要求

    • Web 部署:Node.js 18+ 或 Vercel 账号(推荐)
    • 桌面端:Windows / macOS / Linux
    • 移动端:iOS 15+ / Android 8+
    • API Key:需要 OpenAI / Claude / Gemini 等任一模型的 API Key

    快速安装 – 三种方式

    方式一:Vercel 一键部署(推荐)

    最快的方式,5秒钟完成部署:

    1. 访问 NextChat GitHub 仓库
    2. 点击 Deploy with Vercel 按钮
    3. 登录 Vercel,fork 项目并部署
    4. 在 Vercel 环境变量中添加你的 OPENAI_API_KEY
    5. 部署完成!获得你的私人 ChatGPT 域名

    方式二:Docker 部署

    # 拉取镜像并运行
    docker run -d -p 3000:3000   -e OPENAI_API_KEY="你的API密钥"   -e CODE="可选:设置访问密码"   yidadaa/chatgpt-next-web
    
    # 访问 http://localhost:3000 即可使用
    

    方式三:本地开发

    # 克隆项目
    git clone https://github.com/ChatGPTNextWeb/NextChat.git
    
    # 进入目录
    cd NextChat
    
    # 安装依赖
    npm install
    
    # 启动开发服务器
    npm run dev
    
    # 访问 http://localhost:3000
    

    💡 核心功能

    1. 多模型支持,一个界面搞定所有AI

    NextChat 最大的优势在于统一接口。你可以在同一个界面中切换:

    • OpenAI:GPT-3.5, GPT-4, GPT-4o, GPT-4 Turbo
    • Anthropic Claude:Claude 3 Haiku, Sonnet, Opus
    • Google:Gemini Pro, Gemini Ultra
    • 国内模型:DeepSeek, 通义千问, 文心一言, 讯飞星火
    • 本地模型:Ollama, LM Studio (通过 OpenAI 兼容接口)

    这意味着你可以用同一个界面,根据不同的任务选择最合适的模型 —— 写代码用 GPT-4,聊天用 Claude,节省成本用 DeepSeek。

    2. 极速响应,本地存储保护隐私

    NextChat 在性能优化上做到了极致:

    • 首屏加载 < 1秒:得益于 Next.js 的 SSR 和静态生成
    • 流式输出:打字机效果,响应无延迟
    • 本地存储:所有对话记录保存在浏览器 LocalStorage,不会上传到服务器
    • Markdown 渲染:支持代码高亮、表格、数学公式(KaTeX)
    • 对话搜索:快速检索历史对话

    3. 对话管理,像专业IDE一样强大

    • 对话分支:可以基于某条消息创建分支,方便对比不同回复
    • 提示词模板:内置多种系统提示词,也支持自定义
    • 对话导入/导出:支持 Markdown、JSON 格式
    • 多会话管理:左侧边栏快速切换不同对话
    • 消息编辑:可以修改已发送的消息重新生成回复

    4. 全平台覆盖,随时随地使用AI

    NextChat 提供了完整的多端支持:

    • Web:响应式设计,手机/平板/电脑自适应
    • macOS:Tauri 打包,原生应用体验(仅 5MB)
    • Windows:同样使用 Tauri,启动快速
    • iOS:App Store 可下载
    • Android:Google Play 或侧载 APK

    5. 高度可定制,打造你的专属AI界面

    • 主题切换:内置浅色/深色主题,支持自定义 CSS
    • 多语言:支持中文、英文、日文等 18+ 种语言
    • API 代理:支持设置自定义底座 URL,解决网络问题
    • 访问控制:可设置访问密码,分享给团队使用
    • 插件系统:支持自定义功能和第三方集成

    🎯 典型使用场景

    场景一:个人AI助手,隐私数据不上云

    用户:注重隐私的个人用户、自由职业者

    痛点:使用官方 ChatGPT 担心对话记录被用于存储训练,且需要付费订阅 Plus。

    解决方案

    • 部署 NextChat 到自己的服务器或 Vercel
    • 接入自己的 OpenAI API Key(按量付费,更划算)
    • 所有对话本地存储,完全隐私
    • 可切换多个模型,根据任务选择最合适的

    成本对比:ChatGPT Plus $20/月 vs NextChat + API 按量付费(轻度使用 < $10/月)

    场景二:团队协作,统一AI工具入口

    用户:小团队、创业公司、教育机构

    痛点:团队成员各自购买 AI 订阅,成本高且无法共享 Prompt 和对话记录。

    解决方案

    • 部署 NextChat 到团队服务器
    • 设置访问密码,团队成员共享使用
    • 使用同一个 API Key 池,集中管理成本
    • 导出优质对话记录,建立团队知识库

    实际案例:一个 10 人团队,使用 NextChat 自部署,每月 API 成本约 $50,人均 $5,远低于每人 $20 的 Plus 订阅。

    场景三:开发者调试,快速测试不同模型

    用户:AI 应用开发者、Prompt 工程师

    痛点:需要在不同模型中测试同一 Prompt 的效果,但官方界面切换麻烦。

    解决方案

    • 在 NextChat 中配置多个模型 API
    • 同一对话中快速切换模型
    • 使用对话分支功能,对比不同模型的回复
    • 导出 Markdown 格式,方便整理测试报告

    🌟 推荐理由

    为什么我强烈推荐 NextChat?

    1. 开源且活跃
    项目在 GitHub 上开源,代码透明,社区活跃。你可以自己审查代码,确保没有后门。而且更新频繁,新模型支持速度快。

    2. 性能极致优化
    作为前端项目,NextChat 的性能优化做到了极致。首屏加载快,流式输出无延迟,即使在网络不佳的情况下也能流畅使用。相比其他 Web UI,NextChat 的响应速度是最快的之一。

    3. 真正的跨平台
    很多项目声称”跨平台”,但实际上只支持 Web。NextChat 提供了完整的桌面端和移动端应用,而且桌面端使用 Tauri 打包,体积小、启动快、内存占用低。

    4. 隐私保护到位
    所有对话记录保存在本地,不会上传到任何服务器。即使你部署在自己的服务器上,只要不配置云端同步,数据就只在用户设备上。对于注重隐私的用户来说,这一点非常重要。

    5. 成本可控
    使用官方 ChatGPT Plus 需要每月 $20,而 NextChat 按量付费,对于轻度使用者来说,每月可能只需要几美元。而且你可以根据不同任务选择不同模型,进一步控制成本。

    我的使用心得
    我自己部署了 NextChat,接入了 OpenAI API 和 DeepSeek API。日常聊天用 DeepSeek(便宜),写代码用 GPT-4(准确),每月总成本不到 $10。界面美观,响应快速,是我每天使用最多的 AI 工具。

    📥 下载地址

    🎬 总结

    NextChat 是一款真正为用户着想的开源 AI 对话界面。它不追求花哨的功能,而是把速度、隐私、跨平台这三个核心需求做到了极致。

    如果你:

    • ✅ 希望拥有自己的私人 AI 助手
    • ✅ 注重对话隐私,不想数据被上传
    • ✅ 需要同时使用多个 AI 模型
    • ✅ 想要降低成本,按量付费
    • ✅ 需要在多个设备上使用统一的 AI 界面

    那么,NextChat 绝对是你的 最佳选择

    5分钟部署,拥有一个完全属于你的AI助手 🚀