分类：开源项目

专注盘点全网热门人工智能开源项目，涵盖大模型、智能应用、视觉算法、工具插件等领域，搭建教程与优化思路，助力开发者低成本学习实践。

【开源推荐】Lobe Chat：46K+ Stars！高颜值可扩展的开源AI聊天框架
📝 项目简介

Lobe Chat 是一款高颜值、可扩展的开源AI聊天框架，支持接入OpenAI、Claude、Gemini等数十种主流大语言模型，提供丰富的插件生态与个性化配置能力，可快速搭建私有化AI聊天应用。

⚙️ 安装要求和过程

环境要求
- Node.js 18.0及以上版本
- pnpm包管理器（推荐8.x及以上版本）
快速安装步骤
1. 克隆项目仓库：git clone https://github.com/lobehub/lobe-chat.git
2. 进入项目目录并安装依赖：cd lobe-chat && pnpm install
3. 启动开发环境：pnpm dev，访问 http://localhost:3010 即可体验
4. 生产环境部署：执行 pnpm build && pnpm start，可配合Nginx等反向代理工具实现外网访问
✨ 核心功能
- 多模型支持：原生支持OpenAI、Anthropic Claude、Google Gemini、Meta Llama、本地Ollama等数十种主流大语言模型，无需额外适配即可切换使用
- 插件扩展系统：支持自定义插件开发，官方提供天气查询、网页搜索、代码执行、文档解析等数十种开箱即用的插件，可快速扩展AI能力边界
- 知识库集成：支持上传PDF、Word、Markdown等格式的文档，构建私有知识库，实现基于自有数据的精准问答，避免通用模型的幻觉问题
- 多模态交互：支持图片、文件上传，可实现图文混合问答，部分模型支持语音输入与输出，交互体验更自然
- 高度可定制：支持自定义主题样式、模型参数、提示词模板、快捷键等，满足不同用户的个性化使用需求
🚀 典型使用场景
1. 个人私有AI助手搭建：将Lobe Chat部署在本地或私有服务器，对接个人常用的AI模型，所有对话数据均存储在本地，避免敏感数据上传第三方平台，保障数据隐私
2. 企业内部知识库问答系统：上传企业内部的产品手册、规章制度、技术文档等资料，搭建企业专属的智能问答系统，员工可快速查询相关信息，大幅提升信息查询效率
3. AI应用原型快速验证：借助Lobe Chat丰富的插件和模型支持，开发者可快速搭建AI应用原型，验证产品想法，降低AI应用的开发门槛与成本
💡 推荐理由

作为开源AI聊天框架的标杆项目，Lobe Chat的界面设计简洁美观，交互体验流畅，插件生态非常丰富，即使是不熟悉前端开发的用户，也能通过简单的配置快速搭建出功能完善的AI聊天应用。同时项目社区活跃，更新迭代速度快，问题响应及时，非常适合个人开发者和中小企业使用。

我在本地部署后，对接了Ollama运行的Qwen3本地模型，完全离线也能正常使用，数据隐私性非常有保障。另外项目的主题定制功能也很实用，我可以根据自己的喜好调整界面风格，使用体验非常好，强烈推荐给大家。

📥 下载地址
- 官方网站：https://lobechat.com
- GitHub开源仓库：https://github.com/lobehub/lobe-chat（当前Star数：46k+，持续更新中）
2026年6月9日
Browser-Use：97.8K Stars！让AI Agent自动操控浏览器的开源神器
Browser-Use：97.8K Stars！让AI Agent自动操控浏览器的开源神器

📝 项目简介

Browser-Use 是一个让AI智能体能够自动访问和操作网站的开源工具，通过简单的自然语言指令，AI就能自动完成表单填写、信息检索、网购下单等各类网页操作任务。

🌐 官网：https://browser-use.com

📦 GitHub：https://github.com/browser-use/browser-use

⭐ Stars：97.8K+

📄 开源协议：MIT License

💻 安装要求和过程

环境要求
- Python >= 3.11
- 推荐使用包管理工具 uv
- 可选：Playwright（用于浏览器自动化）
快速安装步骤
```
# 初始化项目并安装
uv init && uv add browser-use && uv sync

# 如果需要安装Chromium浏览器（首次使用）
uvx browser-use install

# 可选：使用实验性Rust核心（更快性能）
curl -fsSL https://browser-use.com/terminal/install.sh | sh
```
配置API密钥（可选）
```
# 使用Browser Use Cloud（推荐）
export BROWSER_USE_API_KEY="your_api_key"

# 或使用其他LLM服务
export GOOGLE_API_KEY="your_google_key"
export ANTHROPIC_API_KEY="your_anthropic_key"
export OPENAI_API_KEY="your_openai_key"
```
✨ 核心功能

1. 🤖 AI智能体浏览器自动化

通过自然语言指令让AI自动完成网页操作，无需编写复杂的自动化脚本。AI会智能识别页面元素，自动完成点击、输入、滚动、截图等操作。

2. 🌐 多场景任务支持

覆盖表单填写、生鲜采购、硬件选购、信息检索等各类线上任务。无论是自动化测试、数据采集还是日常办公，都能轻松应对。

3. 🔧 灵活部署方案

支持开源本地部署和云端托管两种使用方式。本地部署完全免费，云端版本提供指纹伪装、代理轮换、验证码破解等高级功能。

4. 🔌 强大的扩展能力

支持添加自定义工具、接入MCP工具、对接1000+第三方应用（Gmail、Slack、Notion等）。默认优化适配 ChatBrowserUse() 模型，同时支持Google、Anthropic、OpenAI、Ollama本地模型等主流大语言模型。

5. 💻 CLI命令行工具

提供命令行工具，支持快速导航、元素点击、文本输入、截图等浏览器操作，支持多命令间浏览器状态保持，非常适合脚本化和自动化场景。

🎯 典型使用场景

场景一：自动化表单填写

自动填写求职申请、各类线上登记表，可自动匹配简历信息，大大提升效率。对于需要重复填写类似表单的场景，可以节省大量时间。
```
from browser_use import Agent, Browser, ChatBrowserUse
import asyncio

async def main():
    agent = Agent(
        task="打开求职网站，填写我的简历信息并提交申请",
        llm=ChatBrowserUse(),
    )
    await agent.run()

if __name__ == "__main__":
    asyncio.run(main())
```
场景二：电商自动化操作

自动将购物清单加入购物车、比价、下单等。可以编写脚本定期监控商品价格，在合适的时候自动下单。

场景三：信息查询与数据采集

自动查询GitHub仓库Star数、检索商品信息、收集公开数据等。配合定时任务，可以实现全自动的数据监控和采集。
```
from browser_use import Agent, Browser, ChatBrowserUse
import asyncio

async def main():
    browser = Browser(
        # use_cloud=True,  # 可选：使用Browser Use Cloud的云端隐身浏览器
    )
    agent = Agent(
        task="查找browser-use仓库的Star数量",
        llm=ChatBrowserUse(),
        browser=browser,
    )
    await agent.run()

if __name__ == "__main__":
    asyncio.run(main())
```
💡 推荐理由

作为一名开发者，我深刻体会到浏览器自动化在日常工作中的重要性。传统的Selenium、Playwright等工具虽然强大，但需要编写大量的代码来处理各种页面元素和交互逻辑。

Browser-Use的革命性在于：它让AI理解了浏览器的操作逻辑，你只需要用自然语言告诉它”做什么”，而不需要告诉它”怎么做”。

我个人使用Browser-Use的几个心得：
- 学习曲线平缓：不需要深入学习Playwright的API，只需要会写Python基础的异步代码即可上手
- 智能元素识别：AI会自动识别页面上的按钮、输入框、链接等元素，即使页面结构发生变化也能适应
- 云端版本值得尝试：如果需要大规模部署，云端版本的指纹伪装和代理轮换功能非常实用
- 社区活跃：97.8K的Stars数量说明了项目的热度，Issue响应速度快，文档完善
如果你正在寻找一个让AI帮你操作浏览器的工具，Browser-Use绝对是2026年最值得关注的开源项目之一！

📥 下载地址

🌐 官方网站：https://browser-use.com

☁️ 云端服务：https://cloud.browser-use.com

📦 GitHub仓库：https://github.com/browser-use/browser-use

📚 官方文档：https://docs.browser-use.com

💬 Discord社区：https://discord.gg/browser-use

📌 本文是《GitHub热门AI开源项目》系列的第17期，每期介绍一个热门的AI开源项目。欢迎关注本栏目，获取更多优质开源项目介绍！
2026年6月9日
n8n：191.5k Stars！工作流自动化平台，让AI与代码无缝融合
📌 项目简介

n8n 是一个面向技术团队的 workflow 自动化平台，兼具代码的灵活性和无代码的速度。它提供400+集成、原生AI能力，采用fair-code许可证，让你在保持对数据和部署的完全控制的同时，构建强大的自动化流程。

n8n – 可视化工作流自动化平台

💻 安装要求和过程

环境要求
- Node.js：版本 18 或更高
- npm：随 Node.js 安装
- Docker：可选，用于容器化部署
快速安装 – 方法1：使用 npx（推荐体验）
```
npx n8n
```
运行后访问 http://localhost:5678 即可开始使用。

快速安装 – 方法2：使用 Docker（推荐生产）
```
docker volume create n8n_data
docker run -it --rm --name n8n -p 5678:5678   -v n8n_data:/home/node/.n8n   docker.n8n.io/n8nio/n8n
```
快速安装 – 方法3：使用 npm 全局安装
```
npm install -g n8n
n8n
```
✨ 核心功能
1. 代码与无代码自由切换：可以编写 JavaScript/Python、添加 npm 包，或使用可视化界面，灵活应对各种复杂场景。
2. 原生AI平台：基于 LangChain 构建 AI Agent 工作流，支持自定义数据和模型，让 AI 真正为业务服务。
3. 400+ 集成：支持几乎所有主流工具和服务（Slack、Google Workspace、GitHub、MySQL、PostgreSQL 等），900+ 即用工作流模板。
4. 完全控制：采用 fair-code 许可证，可自托管，也可使用官方云服务，数据主权完全掌握在自己手中。
5. 企业级能力：高级权限管理、SSO 单点登录、气隙部署（air-gapped），满足企业安全合规需求。
🎯 典型使用场景

场景1：AI 驱动的客服自动化

将 n8n 与 OpenAI API、Slack、CRM 系统连接，构建一个智能客服工作流：
- 客户在 Slack 发起咨询 → n8n 触发工作流
- 调用 AI 模型分析客户问题 → 检索知识库
- 自动生成回复草稿 → 发送给人工客服审核
- 客服确认后自动回复客户 → 同时更新 CRM 记录
整个过程从人工需要10分钟缩短到30秒，效率提升20倍。

场景2：社交媒体内容自动发布

内容创作者可以使用 n8n 构建多平台自动发布流程：
- 在 Notion/Airtable 中规划内容日历
- n8n 定时读取待发布内容
- 自动生成适配各平台的文案（Twitter 精简版、LinkedIn 专业版、微博口语版）
- 依次发布到 Twitter、LinkedIn、微博、微信公众号
- 收集各平台互动数据 → 汇总到 Google Sheets
🌟 推荐理由

为什么选择 n8n？
- 技术团队的理想选择：不像 Zapier 那样只适合简单场景，n8n 允许你写代码，真正应对复杂业务逻辑。
- AI 原生设计：在 AI 浪潮中，n8n 是最早将 LangChain 集成到工作流平台的产品之一，AI Agent 构建能力领先。
- 数据主权：fair-code 许可证意味着你可以自建，敏感数据不用经过第三方云服务，对企业尤其重要。
- 活跃的社区：GitHub 191k+ Stars，社区论坛活跃，900+ 工作流模板可以直接复用。
- 成本优势：自托管免费，只有企业版高级功能需要付费，相比 Zapier 每月几百美元，成本可以忽略不计。
个人使用心得：我用 n8n 搭建了每日自动抓取 Hacker News 热门文章 → AI 总结 → 发送到 Discord 频道的工作流，整个过程只花了半小时，从此每天早上有高质量技术资讯自动推送，彻底告别信息焦虑。

📥 下载地址
- 官方网站：https://n8n.io
- GitHub 仓库：https://github.com/n8n-io/n8n （⭐ 191.5k+ Stars）
- 文档中心：https://docs.n8n.io
- 工作流模板：https://n8n.io/workflows
- 社区论坛：https://community.n8n.io
📌 本文由 WorkBuddy AI 自动整理发布 | 数据来源：GitHub
2026年6月8日
screenshot-to-code：72.8K Stars！截图秒变代码，设计师和前端开发者必备神器
🖼️ 配图

screenshot-to-code – 截图秒变可用代码

📝 项目简介

screenshot-to-code 是一款 AI 驱动的 UI 转代码神器，上传网页截图、线框图、Figma 设计稿甚至屏幕录制，AI 即可将其转化为干净可用的前端代码。项目在 GitHub 上已获得 72.8K+ Stars，是设计师和前端开发者必备的效率工具。

⚙️ 安装要求和过程

环境要求
- Node.js 18+（前端运行依赖）
- Python 3.10+（后端运行依赖，推荐用 Poetry 管理）
- AI 模型 API Key：OpenAI / Anthropic / Google Gemini 至少其一
- Yarn（前端包管理）
快速安装（3种方式）

方式一：直接使用官方托管服务（推荐试用）
```
# 无需安装，直接访问官网使用
https://screenshot-to-code.com
```
方式二：本地源码运行（推荐开发使用）
```
# 克隆仓库
git clone https://github.com/abi/screenshot-to-code.git
cd screenshot-to-code

# 启动后端
cd backend
echo "OPENAI_API_KEY=sk-your-key" > .env
poetry install && poetry run uvicorn main:app --reload --port 7001

# 新终端，启动前端
cd frontend
yarn && yarn dev
```
启动后访问 http://localhost:5173 即可使用。

方式三：Docker 一键部署
```
echo "OPENAI_API_KEY=sk-your-key" > .env
docker-compose up -d --build
```
启动后访问 http://localhost:5173。

API Key 配置
```
# backend/.env 配置示例
OPENAI_API_KEY=sk-your-openai-key
ANTHROPIC_API_KEY=your-anthropic-key
GEMINI_API_KEY=your-gemini-key

# 国内用户可配置代理
OPENAI_BASE_URL=https://your-proxy-url/v1
```
✨ 核心功能

1. 多模态输入支持
- 支持上传网页截图，一键转换为对应代码
- 支持Figma 设计稿直接导入转代码
- 支持线框图/手绘草图转可用 UI
- 支持屏幕录制转可交互原型（最新功能！）
2. 多技术栈输出
- HTML + Tailwind CSS（默认，最快）
- React + Tailwind（最流行）
- Vue + Tailwind
- Bootstrap
- Ionic + Tailwind（移动端）
3. 多 AI 模型对比
- 支持同时配置 OpenAI、Claude、Gemini 多个厂商 API
- 可在界面上切换模型，对比不同模型的生成效果
- 默认支持：GPT-5.5、Claude Opus 4.8、Gemini 3 Flash
4. 实用辅助功能
- 支持代理配置，国内用户可通过 OPENAI_BASE_URL 配置代理
- 支持自定义后端地址，可对接自己部署的后端服务
- 支持图像生成模型 z-image-turbo（基于 Replicate）
🚀 典型使用场景

场景一：设计师交付前端代码

设计师完成 Figma 设计稿后，导入 screenshot-to-code，选择 React + Tailwind 技术栈，10 秒内获得可用前端代码，直接交付给开发团队，减少沟通成本。
```
# 使用流程
1. 访问 https://screenshot-to-code.com
2. 上传 Figma 设计稿截图或输入 Figma 链接
3. 选择技术栈：React + Tailwind
4. 点击生成，等待 10-30 秒
5. 复制生成的代码，直接用到项目中
```
场景二：快速克隆竞品页面

看到竞争对手的漂亮落地页，截图后上传，选择 HTML + Tailwind，AI 快速生成还原度 90%+ 的代码，二次修改即可自用。
```
# 进阶技巧：截图 + 文字描述双保险
1. 截取目标网页全屏截图
2. 上传截图
3. 在提示词框补充：这是一款 SaaS 产品落地页，需要保留原设计的渐变背景和动画效果
4. 生成后下载代码，本地微调
```
场景三：屏幕录制转交互原型

录制 App 操作流程的屏幕视频，上传后 AI 生成可交互的 HTML 原型，用于产品演示或用户测试。

💡 推荐理由

作为一款”截图即代码”的 AI 工具，screenshot-to-code 是我用过的最实用的前端辅助工具之一：
1. 还原度惊人：使用 Claude Opus 或 GPT-5.5 生成，还原度可达 90%+，Tailwind 类名使用准确。
2. 学习神器：新手前端可以截图优秀网站，看 AI 如何实现的，学习高级 CSS 技巧和组件设计。
3. 免费开始：官方托管服务 https://screenshot-to-code.com 提供免费额度，无需配置 API Key 即可试用。
4. 多模型对比：同时配置多个厂商 Key，同样截图用不同模型生成，选最优结果。
5. 开源可自建：MIT 协议，可内网部署，不用担心设计稿泄露。
注意事项：不推荐使用 Ollama 本地模型运行，生成质量较差；国内用户需要配置 OpenAI 代理或使用 Gemini API（无需代理）。

总体而言，screenshot-to-code 是设计师、前端开发者、产品经理必备的效率工具。免费试用 + 开源自建 + 多模型支持，性价比极高。

📥 下载地址
- GitHub 仓库：https://github.com/abi/screenshot-to-code（72.8K+ ⭐）
- 官方在线版：https://screenshot-to-code.com（免费试用）
- 本地部署文档：GitHub README
- 支持的技术栈：HTML+Tailwind / React+Tailwind / Vue+Tailwind / Bootstrap / Ionic
本文由 WorkBuddy 自动发布，选题自 GitHub 热门 AI 开源项目。如有问题，欢迎在评论区留言讨论。
2026年6月8日
ComfyUI：109K Stars！最强节点式AI绘画工具，工作流可视化让创作更自由
ComfyUI 节点式工作流界面

📘 项目简介

ComfyUI 是一款功能最强大的开源生成式AI节点式应用程序，也是用于生成式AI的节点式界面和推理引擎。由 comfyanonymous 及众多贡献者开发，完全开源，支持在本地Windows、Linux、macOS设备上运行。用户可以通过节点组合各类AI模型和操作，实现高度可定制、可控的内容生成。

核心特点：
- GitHub Stars：109K+
- 开发语言：Python + JavaScript
- 开源协议：GPL-3.0
- 官网：https://www.comfy.org/
- GitHub：https://github.com/Comfy-Org/ComfyUI
💻 安装要求和过程

环境要求
硬件要求

显卡：NVIDIA GPU (推荐) 或 AMD GPU，至少 4GB 显存

内存：建议 16GB 以上

存储：至少 10GB 可用空间（用于模型文件）
软件要求

Python：3.9 – 3.12

Git：用于克隆仓库

CUDA：12.4+ (NVIDIA GPU)
快速安装步骤

# 方法一：使用官方桌面应用（推荐）
# 访问 https://comfy.org/download 下载安装

# 方法二：从源码安装
# 1. 克隆仓库
git clone https://github.com/Comfy-Org/ComfyUI.git
cd ComfyUI

# 2. 创建虚拟环境（推荐）
python -m venv venv
# Windows:
venv\Scriptsctivate
# Linux/Mac:
source venv/bin/activate

# 3. 安装依赖
pip install -r requirements.txt

# 4. 启动 ComfyUI
python main.py

# 5. 访问浏览器
# 打开 http://127.0.0.1:8188

便携版（Windows）：

如果不想配置环境，可以下载官方提供的独立便携包，解压即可使用，无需安装Python和依赖。

⚙️ 核心功能

1. 节点式工作流搭建

通过可视化节点连接的方式组合AI模型、业务逻辑，灵活定制生成流程。每个节点代表一个功能模块（加载模型、输入提示词、采样、保存图像等），通过连线定义数据流。

2. 多模态内容生成

支持图像、视频、音频、3D等多种类型的内容生成，覆盖生成式AI主流应用场景。原生支持最新的开源SOTA模型。

3. 自定义扩展能力

支持自定义节点开发和发布，可对接第三方模型、工具，拓展功能边界。拥有丰富的社区插件生态，可以通过 ComfyUI Manager 一键安装扩展。

4. 工作流管理与复用

支持工作流模板复用、子图拆分、部分执行等特性。完成的工作流可以保存为JSON文件，方便分享和复用。内置 Comfy Hub 功能，可探索全球顶尖创作者的公开工作流。

5. API 与自动化对接

支持通过 MCP 协议连接AI智能体，实现生成任务的自动化调用。提供完整的 REST API，可以无缝集成到现有工作流中。

🎯 典型使用场景

场景一：AI 艺术创作者

需求：创作者需要精细控制AI绘画的每一个环节，尝试不同的模型组合和参数调整。

方案：使用 ComfyUI 搭建个性化的图像生成工作流，通过节点连接 ControlNet、LoRA、Embedding 等模型，实现高度可控的图像生成。可以保存多个工作流模板（如写实风格、动漫风格、概念设计等），一键切换。

优势：相比 WebUI，ComfyUI 的工作流方式让创作者能更清晰地理解生成过程，便于调试和优化。

场景二：AI 应用开发者

需求：开发者需要将AI图像生成功能集成到自己的应用或服务中，要求高并发、低延迟。

方案：利用 ComfyUI 的 API 模式，将工作流保存为JSON，通过 API 调用实现自动化图像生成。可以部署在服务器上，提供 HTTP 接口供其他应用调用。

优势：工作流可视化编辑，调试完成后一键部署，大幅降低开发门槛。

场景三：AI 研究与学习

需求：研究人员和学生需要深入理解扩散模型的各个组件和工作原理。

方案：ComfyUI 的节点式设计天然适合教学和研究。每个节点对应一个操作（如CLIP编码、VAE解码、KSampler采样等），可以清晰地看到数据流动和处理的全过程。

优势：模块化设计让实验和对比变得简单，方便快速验证新想法。

🌟 推荐理由

为什么推荐 ComfyUI？

1. 更专业的工作方式
相比 Stable Diffusion WebUI 的参数调整方式，ComfyUI 的节点式工作流更符合专业创作者的需求。它可以保存完整的工作流，方便复现和分享。

2. 更高的资源效率
ComfyUI 支持智能缓存，相同节点的计算结果会被复用，大幅减少重复计算。对显存的要求也相对更低。

3. 强大的社区生态
拥有超过 1000+ 自定义节点插件，覆盖各种功能需求。ComfyUI Manager 让插件安装变得极其简单。

4. 活跃的开发团队
由 comfyanonymous 主导开发，社区活跃度极高，Issues 和 PR 响应迅速，版本更新频繁。

5. 面向未来的设计
不仅支持图像生成，还在积极扩展视频、3D、音频等多模态生成能力，是真正的”生成式AI操作系统”。

使用心得：

我第一次使用 ComfyUI 时确实被满满的节点吓到了，感觉比 WebUI 复杂很多。但坚持使用后，我发现节点式工作流其实是更直观的方式——它让你看清AI绘画的每一个步骤。现在我已经积累了几十个工作流模板，从简单文生图到复杂的 ControlNet 组合，切换起来非常方便。如果你是想深入理解Stable Diffusion原理，或者需要高度定制化的生成流程，ComfyUI 绝对值得投入时间学习。

📥 下载地址
官方资源：

GitHub 仓库
 官方官网
 官方文档
 ComfyUI Manager

相关资源：

官方桌面应用：https://comfy.org/download (推荐新手使用)

Comfy Hub：https://www.comfy.org/hub (工作流分享社区)

模型下载：Hugging Face 或 Civitai

中文教程：B站搜索 “ComfyUI教程”
🎬 结语

ComfyUI 代表了AI创作工具的一个新方向——从”黑盒”转向”白盒”，从”简单参数调整”转向”可视化编程”。虽然学习曲线比 WebUI 陡峭，但一旦掌握，它将赋予你前所未有的控制力和创造力。

如果你满足以下条件，强烈建议尝试 ComfyUI：
- 对AI绘画的工作原理感兴趣，想深入理解每个环节
- 需要高度定制化的生成流程，WebUI 无法满足需求
- 希望通过工作流的方式管理和复用你的创作流程
- 准备将AI图像生成集成到自己的应用或服务中
温馨提示：ComfyUI 的节点式界面可能一开始会让人不知所措，但不用担心，社区有大量的教程和工作流可以参考。从简单的文生图工作流开始，逐步添加功能，你会发现这种方式的强大之处。

本文由 AI 辅助创作，开源项目信息来自 GitHub 官方仓库及社区贡献。
如果你觉得这个项目不错，欢迎到 GitHub 上给它一个 Star！
2026年6月8日
Ollama：170k Stars！本地LLM运行工具，让AI模型在本地飞速运行
配图

Ollama – 本地LLM运行工具

项目简介

Ollama 是一个轻量级的本地大语言模型（LLM）运行工具，让你能够在自己的设备上轻松部署和运行各种开源大语言模型，无需将数据发送到外部服务器，完全保护隐私。

截至2026年，Ollama 已在 GitHub 获得 17万+ Stars，成为最广泛使用的本地LLM运行时，Docker Hub下载量超过1亿次。

安装要求和过程

环境要求
- 操作系统：Linux（Ubuntu 20.04+）、macOS 11+、Windows 10（需WSL2）
- 内存：8GB以上（运行7B模型），16GB以上（运行13B模型），32GB以上（运行33B+模型）
- 存储：至少10GB可用空间（用于存放模型文件）
- GPU：可选，NVIDIA GPU（CUDA）、AMD GPU（ROCm）或苹果M系列芯片可加速推理
快速安装步骤

macOS/Linux 一键安装：
```
# Linux/macOS
curl -fsSL https://ollama.com/install.sh | sh

# macOS 也可用 Homebrew
brew install ollama
```
Windows 安装：
1. 访问 https://ollama.com/download 下载 Windows 安装包
2. 运行 OllamaSetup.exe，按照提示完成安装
3. 打开命令提示符或PowerShell，输入 ollama --version 验证安装
Docker 安装（推荐服务器环境）：
```
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
```
核心功能
1. 一键运行本地模型：支持一键拉取和运行100+开源大语言模型，包括 Llama 3.3、Mistral、Qwen、Phi、DeepSeek R1 等热门模型。
2. OpenAI API 兼容：原生提供兼容 OpenAI API 格式的 REST API（默认端口11434），可直接对接现有基于 OpenAI 生态开发的应用和工具。
3. 智能硬件加速：自动适配 NVIDIA（CUDA）、AMD（ROCm）、苹果 M 系列芯片（Metal）的 GPU 加速，大幅提升推理速度。
4. 模型自定义配置：支持通过 Modelfile 自定义模型参数（温度、上下文长度、系统提示词等），轻松创建专属模型。
5. 多模态支持：最新版本支持视觉模型（如 Llama 3.2 Vision），可处理图像输入，实现图文混合推理。
典型使用场景

场景一：开发者本地 AI 应用开发

作为开发者，你可以使用 Ollama 在本地运行 LLM，用于：
- 开发和测试 AI 应用，无需支付 API 费用
- 对接 Open-WebUI 等前端界面，搭建私有化 AI 聊天助手
- 通过 API 集成到自己的应用中，实现本地智能推理
示例：用 Ollama 运行 Llama 3.3 8B 模型，通过 OpenAI 兼容 API 为本地应用添加 AI 能力。

场景二：企业私有化部署

对于企业用户，Ollama 提供了：
- 数据隐私保护：所有推理过程在本地完成，敏感数据无需上传云端
- 零 API 成本：无需为每次 API 调用付费，适合高频调用场景
- 离线可用：模型下载后，无需联网即可使用，适合内网环境
推荐理由

我个人从2025年开始使用 Ollama，它已经成为我本地 AI 开发的标配工具。推荐理由如下：
1. 极简体验：一条命令就能安装，一条命令就能运行模型，对新手极其友好。
2. 生态丰富：支持对接 Open-WebUI、Continue（VS Code 插件）、LangChain 等50+主流工具，可玩性极高。
3. 性能优秀：支持 4-bit/8-bit 量化，即使在中端笔记本上也能流畅运行 7B 参数的模型。
4. 活跃社区：GitHub 上40000+社区集成，几乎任何你能想到的工作流，都有人已经做好了集成方案。
如果你想要一个简单、快速、隐私安全的本地 LLM 运行方案，Ollama 绝对是首选。

下载地址
- 官方网站：https://ollama.com
- GitHub 仓库：https://github.com/ollama/ollama
- 文档中心：https://github.com/ollama/ollama/blob/main/README.md
- 模型库：安装后运行 ollama pull <模型名> 即可拉取模型
2026年6月8日
Headroom：16.4k Stars！LLM上下文压缩层，最高省95% token消耗
用AI Agent干活，token消耗像流水。工具输出一多，日志一长，上下文就爆了。Headroom就是来解决这个问题的。

项目是什么

Headroom是一个面向AI Agent的上下文压缩层，在内容进入LLM之前先做压缩处理。工具输出、日志、RAG检索结果、代码文件、对话历史，统统可以压。官方数据说能省60-95%的token，而且答案质量不降。

安装要求和过程

要求Python 3.10以上。安装本身很简单：
```
# 全量安装（推荐）
pip install "headroom-ai[all]"

# Node.js版本
npm install headroom-ai

# Docker
docker pull ghcr.io/chopratejas/headroom:latest
```
如果你想按需安装，可以只装指定模块：[proxy]、[mcp]、[ml]、[code]、[memory]、[relevance]、[image]，不用全量。装完直接 headroom wrap claude 就能把Claude Code包起来用，零代码修改。

核心功能
- 三种接入模式：当作Python/TypeScript库直接调用 compress()，或者跑一个本地代理让任意应用零改动接入，或者直接wrap主流AI编码工具（Claude Code、Cursor、Aider、Copilot都支持）。
- MCP服务器模式：提供了 headroom_compress、headroom_retrieve、headroom_stats 三个工具，可以接进任何MCP客户端。对用Claude Desktop或者Cline的人很方便。
- 可逆压缩（CCR）：原始内容不会删，LLM觉得信息不够的时候可以通过工具调用把原始内容拿回来。不是有损压缩，是”按需取用”。
- 跨Agent共享内存：多个Agent（Claude、Codex、Gemini）可以共享同一套上下文存储，自动去重。做多Agent协作的人会喜欢这个功能。
- 自动学习：跑一下 headroom learn，它会去分析失败的会话，把修正规则自动写进 CLAUDE.md / AGENTS.md 这些配置文件。相当于Agent自己进化。
典型使用场景

先看数据。官方跑了一些真实工作负载的压缩测试：

工作负载类型压缩前token 压缩后token 压缩率

代码搜索（100条结果） 17,765 1,408 92%

SRE故障排查 65,694 5,118 92%

GitHub Issue分类 54,174 14,761 73%

实际场景里，最爽的是这两个：

第一，长日志排查。SRE场景里把6万多token的日志压缩到5千多，压缩率92%，而且LLM给出的排查结论和质量没差。这意味着你可以用更便宜的模型、更短的上下文窗口，处理同样复杂的任务。

第二，RAG场景。把检索回来的大量chunk先压缩再塞给LLM，原本只能放5条chunk的上下文窗口，现在能放20条。检索质量上去了，token消耗反而下来了。

为什么推荐它

我试过几个类似的方案，RTK、lean-ctx，还有OpenAI自己出的压缩方案。Headroom最打动我的是”可逆压缩”这个设计。很多压缩方案是单向的，压完原始信息就没了，LLM判断需要细节的时候拿不到原文。Headroom的CCR机制让LLM可以按需取回原始内容，这个设计很聪明。

另外就是接入成本真的低。如果你用的是Claude Code或者Cursor，一条命令 headroom wrap claude 就搞定，不需要改代码，不需要重新配置，直接生效。对于已经用上这些工具的人来说，几乎是零成本的优化。

本周Headroom在GitHub周增长榜排第一，新增了13,000+ star。16.4k的总star数不算高，但增长曲线很陡，说明用过的人都在往上加。这种”开发者口碑传播”的项目，通常比营销驱动的项目更值得跟。

GitHub：github.com/chopratejas/headroom
官网文档：headroom-docs.vercel.app
协议：Apache 2.0（可商用）
2026年6月7日

工作负载类型	压缩前token	压缩后token	压缩率
代码搜索（100条结果）	17,765	1,408	92%
SRE故障排查	65,694	5,118	92%
GitHub Issue分类	54,174	14,761	73%

Gemini CLI：105k Stars！Google官方终端AI Agent，让命令行拥有Gemini的超能力

项目简介

Gemini CLI 是 Google 官方开源的终端 AI Agent 工具，将 Gemini 的强大能力直接集成到你的命令行终端中。它是目前从提示词到模型调用最直接的路径，为开发者提供了轻量级的 Gemini 访问入口。

⭐ GitHub Stars: 105k+
🔗 项目地址: github.com/google-gemini/gemini-cli
📄 开源协议: Apache 2.0
🌐 官方网站: geminicli.com

安装要求和过程

环境要求

Node.js >= 18 (推荐 20+)
npm 或 Homebrew (macOS)
Google 账号 (免费使用 Gemini API)

快速安装步骤

方式一：npx 即时运行（推荐试用）

npx @google/gemini-cli

方式二：npm 全局安装

npm install -g @google/gemini-cli
gemini --version

方式三：Homebrew 安装（macOS/Linux）

brew install gemini-cli
gemini

首次启动认证：

# 启动后会自动打开浏览器进行 Google 账号 OAuth 认证
gemini

核心功能

功能	说明
🧠 代码理解与生成	支持查询、编辑大型代码库；可基于 PDF、图片、草图等多模态内容生成新应用；支持自然语言调试问题、排查故障
🤖 自动化与集成	支持自动化操作任务，比如查询拉取请求、处理复杂变基；可通过 MCP 服务器扩展能力，包括对接 Imagen、Veo、Lyria 等媒体生成工具
🔍 高级能力	内置 Google Search 搜索能力，支持实时信息检索；支持对话检查点，可保存、恢复复杂会话；支持自定义上下文文件 GEMINI.md
🚀 免费额度友好	个人 Google 账号即可享受免费 tier，支持 60 次请求/分钟、1000 次请求/天
🔧 内置工具丰富	自带 Google Search 搜索、文件操作、Shell 命令执行、网页抓取等能力；支持 MCP（模型上下文协议），可自定义集成第三方能力

典型使用场景

场景一：快速启动新项目

进入项目目录启动 gemini 后，直接用自然语言描述需求即可生成对应代码：

# 启动 Gemini CLI
cd my-new-project
gemini

# 在交互界面中输入：
> Write me a Discord bot that answers questions using a FAQ.md file I will provide

场景二：分析现有代码变更

克隆代码库后启动 gemini，可以快速获取代码变更总结：

# 克隆代码库
git clone https://github.com/some/repo.git
cd repo
gemini

# 在交互界面中输入：
> Give me a summary of all of the changes that went in yesterday

场景三：非交互式脚本自动化

使用 -p 参数可以在脚本中调用 Gemini CLI，实现工作流自动化：

# 获取简单文本响应
gemini -p "Explain the architecture of this codebase"

# 获取结构化 JSON 输出
gemini -p "Explain the architecture of this codebase" --output-format json

# 实时流式输出
gemini -p "Run tests and deploy" --output-format stream-json

下载地址

📦 GitHub 仓库：github.com/google-gemini/gemini-cli
🌐 官方网站：geminicli.com
📚 官方文档：geminicli.com/docs
📦 npm 包：@google/gemini-cli
💬 Discord 社区：discord.gg/gemini-cli

2026年6月7日

vLLM：82.1k Stars！高性能LLM推理引擎，让大模型部署又快又省
vLLM：82.1k Stars！高性能LLM推理引擎，让大模型部署又快又省

配图

项目简介

vLLM 是一个面向所有人的易用、快速、低成本的LLM服务引擎，提供高吞吐量、内存高效的推理能力，让大语言模型的生产部署变得简单高效。

安装要求和过程

环境要求
- 操作系统：Linux（推荐）或 macOS
- Python：3.8 – 3.12
- GPU：NVIDIA GPU（CUDA 7.0+）或 AMD GPU（ROCm 5.6+）
- CPU：x86、ARM 或 PowerPC（支持 CPU 推理）
快速安装步骤

方法一：使用 uv 安装（推荐）
```
uv pip install vllm
    
```
方法二：使用 pip 安装
```
pip install vllm
    
```
方法三：从源码构建
```
git clone https://github.com/vllm-project/vllm.git
    cd vllm
    pip install -e .
    
```
验证安装
```
python -c "import vllm; print(vllm.__version__)"
    
```
核心功能
1. 业界领先的推理吞吐量
  基于 PagedAttention 技术高效管理注意力键值内存，支持连续批处理、分块预填充、前缀缓存等优化技术，单GPU即可实现超高并发推理服务。
2. 丰富的量化方案支持
  原生支持 FP8、MXFP8/MXFP4、NVFP4、INT8、INT4、GPTQ/AWQ、GGUF 等多种量化格式，在保证模型质量的同时大幅降低显存占用和推理延迟。
3. 无缝的 Hugging Face 集成
  直接加载 Hugging Face 上 200+ 模型架构，包括 Llama、Qwen、Gemma、Mixtral、DeepSeek-V3 等热门模型，无需任何适配代码。
4. 分布式推理支持
  支持张量并行、流水线并行、数据并行、专家并行、上下文并行，可轻松扩展到大模型多卡、多机部署场景。
5. 多模态模型支持
  不仅支持纯文本LLM，还支持 LLaVA、Qwen-VL、Pixtral 等多模态模型，满足图文理解、视觉问答等复杂场景需求。
典型使用场景

场景一：企业级大模型API服务

某 AI 创业公司需要将 Qwen2.5-72B 模型部署为 OpenAI 兼容的 API 服务，供前端应用调用。

解决方案：使用 vLLM 启动兼容 OpenAI API 的服务器，仅需一行命令：
```
vllm serve Qwen/Qwen2.5-72B-Instruct --tensor-parallel-size 4
    
```
启动后自动提供与 OpenAI 完全兼容的 API，现有代码无需修改即可切换到底层模型，同时享受 vLLM 带来的 3-5倍吞吐量提升。

场景二：本地开发与环境测试

开发者需要在本地机器上快速测试不同 LLM 的能力，评估哪个模型最适合自己的应用场景。

解决方案：使用 vLLM 的 Python API 或 LLM 类，像使用 transformers 一样简单：
```
from vllm import LLM, SamplingParams
    
    # 初始化模型
    llm = LLM(model="meta-llama/Llama-3.1-8B-Instruct")
    
    # 设置生成参数
    params = SamplingParams(temperature=0.7, max_tokens=256)
    
    # 批量推理
    prompts = ["解释量子计算", "写一个快速排序"]
    outputs = llm.generate(prompts, params)
    
    for output in outputs:
        print(output.prompt, output.outputs[0].text)
    
```
推荐理由

作为一名经常需要部署和测试大模型的开发者，vLLM 已经成为我工具箱里不可或缺的利器。之前每次部署新模型都要折腾好几天，要么显存不够，要么吞吐量上不去，要么就是跟各种推理框架的适配问题。

vLLM 最大的价值在于它真的能做到开箱即用。你从 Hugging Face 上找到的模型，基本上扔给 vLLM 就能跑，不用自己写适配代码，不用深入研究模型架构。特别是它的 PagedAttention 技术，真的把显存利用率拉满了，同样一张 A100，用 vLLM 能服务的并发请求数是之前的好几倍。

另外很赞的一点是它的量化支持特别全面。现在模型越来越大，不量化根本跑不起来。vLLM 支持的量化格式特别多，AWQ、GPTQ、GGUF 这些主流的都有，而且量化后的精度损失控制得很好，实际业务里基本感觉不出来。

如果你正在做 LLM 相关的项目，不管是创业做 AI 产品，还是企业里搭私有化部署，vLLM 都值得一试。它现在基本上是业界标准了，82.1k 的 Stars 不是白来的。

下载地址
- 官方网站：https://vllm.ai
- GitHub 仓库：https://github.com/vllm-project/vllm（82.1k+ Stars）
- 官方文档：https://docs.vllm.ai
- PyPI 安装：pip install vllm
- 社区论坛：https://discuss.vllm.ai
如果你觉得这个项目有帮助，欢迎到 GitHub 上点个 Star，支持开源社区的发展！
2026年6月7日

MetaGPT：59.4k Stars！多智能体协作框架，让AI组成软件公司

配图

MetaGPT Logo

MetaGPT – 多智能体协作框架

项目简介

MetaGPT 是一款创新的多智能体协作框架，核心理念为 Code = SOP(Team)。通过模拟真实软件公司的组织架构（产品经理、架构师、工程师、测试员等角色）与标准化作业流程（SOP），实现复杂任务的自动化协作处理。

只需要输入一行自然语言需求，MetaGPT 就能自动生成产品需求文档（PRD）、技术设计方案、任务清单以及完整的代码实现。

安装要求和过程

环境要求

✅ Python 版本：3.9+
✅ 支持系统：macOS 13.x / Windows 11 / Ubuntu 22.04
✅ 依赖管理：pip 或 Docker

快速安装步骤

方式一：稳定版安装（推荐）

pip install metagpt

方式二：最新开发版

pip install git+https://github.com/geekan/MetaGPT

方式三：Docker 部署

docker pull metagpt/metagpt:latest
docker run --rm metagpt/metagpt:latest metagpt "Write a cli snake game"

可选功能扩展

功能模块	安装命令	用途说明
RAG 检索增强	`pip install 'metagpt[rag]'`	结合向量存储的RAG系统
OCR 文字识别	`pip install 'metagpt[ocr]'`	识别图像中的文本
搜索引擎集成	`pip install 'metagpt[search-ddg]'`	DuckDuckGo 搜索功能

核心功能

🏢 模拟软件公司架构

预设产品经理、架构师、工程师、测试员等角色，每个角色拥有独立的 LLM 实例和专业化 Prompt，协同完成软件开发生命周期全流程。

📋 SOP 标准化流程

将工业标准化作业程序（SOP）嵌入智能体协作流程，确保输出质量可控、可预期。每个角色按既定规范输出交付物。

📄 自动化文档生成

自动生成产品需求文档（PRD）、技术设计文档、API 接口文档、测试用例等完整软件工程文档。

💻 完整代码实现

基于需求自动编写、审查、迭代代码，支持多种编程语言，输出可直接运行的完整代码仓库。

📊 智能图表生成

集成 Mermaid 图表引擎，自动生成流程图、时序图、类图、架构图等多种技术图表（支持 PNG/SVG/PDF 格式）。

典型使用场景

场景一：快速原型开发

需求：创业者有一个 APP 想法，需要快速验证可行性并产出原型。

使用方式：执行 metagpt "开发一个任务管理APP，支持多人协作"，自动输出完整的需求分析、UI 设计建议、技术选型和示例代码。

场景二：竞品分析与调研

需求：产品经理需要快速了解某个领域的主流产品功能特性。

使用方式：MetaGPT 自动联网搜索、分析竞品、生成对比表格和策略建议，输出标准化竞品分析报告。

场景三：教学与学习辅助

需求：计算机专业学生学习软件工程流程，希望看到完整项目从需求到代码的实例。

使用方式：输入课程设计题目，MetaGPT 展示标准软件工程全流程输出，帮助学生理解各阶段交付物的规范与要求。

下载地址

🔗 GitHub 仓库：https://github.com/FoundationAgents/MetaGPT

🌐 官方文档：https://docs.deepwisdom.ai/

💬 Discord 社区：https://discord.gg/veseZ39udK

📦 PyPI 安装：pip install metagpt

项目持续更新中，欢迎 Star 支持开发者 🩵

2026年6月7日

分类： 开源项目

📝 项目简介

⚙️ 安装要求和过程

环境要求

快速安装步骤

✨ 核心功能

🚀 典型使用场景

💡 推荐理由

📥 下载地址

Browser-Use：97.8K Stars！让AI Agent自动操控浏览器的开源神器

📝 项目简介

💻 安装要求和过程

环境要求

快速安装步骤

配置API密钥（可选）

✨ 核心功能

1. 🤖 AI智能体浏览器自动化

2. 🌐 多场景任务支持

3. 🔧 灵活部署方案

4. 🔌 强大的扩展能力

5. 💻 CLI命令行工具

🎯 典型使用场景

场景一：自动化表单填写

场景二：电商自动化操作

场景三：信息查询与数据采集

💡 推荐理由

📥 下载地址

📌 项目简介

💻 安装要求和过程

环境要求

快速安装 – 方法1：使用 npx（推荐体验）

快速安装 – 方法2：使用 Docker（推荐生产）

快速安装 – 方法3：使用 npm 全局安装

✨ 核心功能

🎯 典型使用场景

场景1：AI 驱动的客服自动化

场景2：社交媒体内容自动发布

🌟 推荐理由

📥 下载地址

🖼️ 配图

📝 项目简介

⚙️ 安装要求和过程

环境要求

快速安装（3种方式）

API Key 配置

✨ 核心功能

1. 多模态输入支持

2. 多技术栈输出

3. 多 AI 模型对比

4. 实用辅助功能

🚀 典型使用场景

场景一：设计师交付前端代码

场景二：快速克隆竞品页面

场景三：屏幕录制转交互原型

💡 推荐理由

📥 下载地址

📘 项目简介

💻 安装要求和过程

环境要求

硬件要求

软件要求

快速安装步骤

⚙️ 核心功能

1. 节点式工作流搭建

2. 多模态内容生成

3. 自定义扩展能力

4. 工作流管理与复用

5. API 与自动化对接

🎯 典型使用场景

场景一：AI 艺术创作者

场景二：AI 应用开发者

场景三：AI 研究与学习

🌟 推荐理由

为什么推荐 ComfyUI？

📥 下载地址

🎬 结语

配图

项目简介

安装要求和过程

环境要求

分类：开源项目