分类：开源项目

专注盘点全网热门人工智能开源项目，涵盖大模型、智能应用、视觉算法、工具插件等领域，搭建教程与优化思路，助力开发者低成本学习实践。

Deep-Live-Cam：80.8k+ Stars！实时AI换脸神器，一键打造你的数字分身
📌 项目简介

Deep-Live-Cam 是一款强大的实时人脸交换与虚拟摄像头开源工具，只需一张照片，即可实现实时换脸、虚拟摄像头直播。项目基于深度学习技术，支持 CPU/GPU 加速，兼容 Windows/Linux/macOS 三大平台，是 AI 多模态生成领域的明星项目，GitHub Stars 突破 80.8k+。

无论是直播娱乐、视频会议虚拟形象，还是 AI 内容创作，Deep-Live-Cam 都能让普通人轻松体验 AI 换脸的魅力。

⚙️ 安装要求和过程
环境要求
- Python 3.9+
- CPU: 支持（速度较慢）；GPU: NVIDIA (CUDA) / AMD (ROCm) / Apple Silicon (MPS) 推荐
- 操作系统: Windows 10/11, Ubuntu 20.04+, macOS 12+
- 磁盘空间: 至少 4GB（含模型文件）
快速安装（3步搞定）
`# 1. 克隆仓库 git clone https://github.com/hacksider/Deep-Live-Cam.git cd Deep-Live-Cam # 2. 安装依赖（推荐使用conda环境） pip install -r requirements.txt # 3. 下载模型文件（按照官方README指引） # 将模型放入 models/ 目录 # 4. 运行！ python run.py`

💡 提示：Windows 用户建议使用 `setup_env.bat` 一键配置环境，避免依赖冲突。
✨ 核心功能

🎭 实时人脸交换

只需一张源照片，即可将目标视频/摄像头中的人脸实时替换，延迟低至 0.1 秒。

📹 视频换脸处理

支持 MP4/AVI/MOV 等主流格式，批量处理多个视频，输出高质量换脸结果。

🎥 虚拟摄像头

将换脸后的画面作为虚拟摄像头输出，即用在 Zoom/微信/OBS 等应用中。

🖼️ 多人脸支持

同时识别并替换画面中的多个人脸，适用于团体合影、群聊场景的智能换脸。

🎨 人脸增强（Enhanced）

内置 GFPGAN 人脸增强模型，让换脸后的面部更清晰自然，减少 AI 伪影。

🚀 典型使用场景

场景一：直播/视频会议虚拟形象

通过虚拟摄像头功能，在 Zoom、腾讯会议、微信视频号直播中使用任意人脸作为自己的虚拟形象，保护隐私的同时增添趣味。只需提前准备一张目标人脸照片，Deep-Live-Cam 会实时将你的面部替换为目标形象。

场景二：短视频/影视内容创作

将演员面孔替换为任意目标，用于影视二创、搞笑短视频制作。相比传统后期软件，Deep-Live-Cam 支持实时预览，创作效率大幅提升。配合 OBS 可实现实时直播换脸，是内容创作者的利器。

场景三：AI 换脸技术研究

作为开源项目，Deep-Live-Cam 提供了完整的实时换脸技术栈，包括人脸检测（YOLOv8）、人脸识别（ArcFace）、人脸交换（Inswapper）等模块，非常适合 AI 研究者学习和二次开发。

💡 推荐理由

Deep-Live-Cam 是我见过的最易用、最强大的开源实时换脸工具，没有之一。它的几个亮点让我印象深刻：

第一，真正零门槛。不需要懂 AI、不需要配置复杂环境，Windows 用户运行一个 bat 脚本就能完成全部配置，真正做到了”一键启动”。

第二，实时性能惊人。在 RTX 3060 上能达到 30+ FPS 的实时换脸，延迟低到几乎感觉不到——这是很多商业软件都做不到的。

第三，开源且活跃。项目在 GitHub 上持续更新，社区活跃，Issue 响应快，而且完全免费——相比之下，某些商业换脸软件动辄每月几十美元订阅费。

如果你对 AI 多模态生成、实时视觉特效感兴趣，Deep-Live-Cam 绝对值得 star 和深入研究。⭐

📥 下载地址

GitHub 仓库：https://github.com/hacksider/Deep-Live-Cam ⧉

在线 Demo：查看演示视频 ⧉

许可证：MIT License（可自由使用、修改和分发）

最新版本：请关注 GitHub Releases 页面获取更新

📌 本文由 WorkBuddy AI 自动采集撰写，内容仅供参考。请遵守当地法律法规，勿将本工具用于非法用途。
2026年6月3日

Tabby：32K Stars！开源自托管AI编程助手，让代码补全完全私有化

Tabby – 开源自托管AI编程助手

🚀 项目简介

Tabby 是一款完全开源、可自托管的AI编程助手，是 GitHub Copilot 的完美替代品。支持团队在本地或私有服务器上运行属于自己的代码补全引擎，100% 保障代码隐私安全。

32K+

GitHub Stars

100%

开源免费

多IDE

全面支持

⚙️ 安装要求和过程

环境要求

Python 3.8+ 或 Docker 环境
CPU版：4GB RAM（StarCoder-1B）
GPU版：16GB RAM + NVIDIA GPU（推荐）
支持 Windows / macOS / Linux

快速安装（Docker方式 – 官方推荐）

# CPU版本
mkdir -p ~/tabby/data
docker run -it \
  --gpus all \
  -p 8080:8080 \
  -v $HOME/tabby/data:/data \
  -e TABBY_MODEL_REGISTRY=/data \
  tabbyml/tabby \
  serve --model StarCoder-1B --device cpu

# GPU加速版本（需NVIDIA Container Toolkit）
docker run -it \
  --gpus all \
  -p 8080:8080 \
  -v $HOME/tabby/data:/data \
  tabbyml/tabby \
  serve --model StarCoder-1B --device cuda

本地直接安装

# 通过Cargo安装（需Rust环境）
cargo install tabby

# 或直接下载预编译二进制
# 从 GitHub Releases 下载对应平台版本
tabby serve --model StarCoder-1B --device cpu

IDE插件安装

VS Code：扩展市场搜索 “Tabby” 安装
JetBrains：IntelliJ IDEA / PyCharm / WebStorm 等在 Settings → Plugins 搜索 “Tabby”

✨ 核心功能

🔐 完全自托管，代码100%隐私

所有代码补全请求在本地或私有服务器完成，代码绝不离开你的基础设施，彻底解决代码泄露风险。

🤖 多模型兼容

支持 StarCoder、CodeLlama、DeepSeek Coder、CodeGen 等主流开源代码大模型，可按需选择和切换。

⚡ 全链路性能优化

IDE插件端通过自适应缓存策略实现精准流式输出，补全响应速度小于1秒；模型服务侧解析代码为Tree Sitter标签，生成更有效提示词。

🛠️ 支持离线使用与自定义训练

模型下载完成后无需网络连接即可运行；支持基于自有代码库对模型进行微调，适配团队专属代码风格。

🌍 多语言支持

覆盖 Python、JavaScript/TypeScript、Java、Go、Rust、C++、Ruby、PHP 等主流开发语言。

🎯 典型使用场景

场景一：企业私有化部署AI编程助手

对代码安全性要求高的企业/团队，可通过Tabby在私有服务器或Kubernetes集群上部署AI代码补全服务，让团队成员享受AI编程效率提升的同时，确保核心代码资产不泄露到第三方云服务。

场景二：个人开发者本地AI编程

个人开发者可在本地机器上运行Tabby，使用StarCoder-3B等中等规模模型，在CPU上流畅运行，享受免费、私密、低延迟的代码补全体验，完全替代付费的GitHub Copilot订阅。

场景三：基于自有代码库训练专属模型

团队可将自有代码库用于微调Tabby背后的代码大模型，使AI补全建议更贴合团队编码风格和业务逻辑，有效提升代码生成的相关性和准确性。

💡 推荐理由

作为一款开源AI编程助手，Tabby最打动我的是它对「代码隐私」的极致重视。在AI编程助手遍地开花的今天，大多数方案都要求你把代码发送到第三方云服务，而Tabby让一切都在你的掌控之中。

它的部署灵活性也令人印象深刻——从轻量的CPU模式到高性能的GPU加速，从单机部署到Kubernetes集群，从个人使用到企业级权限管理，Tabby都能很好适配。加上它对多种开源代码模型的良好支持，你可以根据硬件条件和补全质量需求灵活选择。

如果你在意代码安全、希望摆脱SaaS订阅费用、或者想深入了解AI编程助手的工作原理，Tabby绝对值得一试。这也是它能在GitHub上获得32K+ Stars、成为Copilot最佳开源替代品的原因。

📊 支持模型与配置参考

模型名称	参数规模	推荐配置	补全质量
StarCoder-1B	1B	4GB RAM，CPU运行	基础
StarCoder-3B	3B	8GB RAM，CPU运行	良好
CodeLlama-7B	7B	16GB RAM，GPU运行	优秀
DeepSeek-Coder-6.7B	6.7B	16GB RAM，GPU运行	优秀
StarCoder-15B	15B	32GB RAM，GPU运行	最佳

官方推荐大多数普通开发者选择 StarCoder-3B，在CPU上也可流畅运行，补全质量均衡。

📥 下载地址

🌐 官方网站：https://www.tabbyml.com/
🐙 GitHub仓库：https://github.com/TabbyML/tabby
📚 官方文档：https://tabby.tabbyml.com/docs/welcome/
💻 VS Code插件：VS Code Marketplace
🐳 Docker镜像：tabbyml/tabby

🔥 对AI开源项目感兴趣？欢迎关注本栏目，每周带你发现最值得关注的GitHub热门AI项目！

2026年6月3日

NextChat：88K Stars！轻量极速的跨平台AI对话界面，让AI助手触手可及
NextChat 是一款轻量极速的开源AI对话界面，支持 GPT-4、Claude 3、Gemini Pro 等十余种主流大模型，提供 Web、iOS、Mac、Android 全平台客户端，让你一键拥有属于自己的私人AI助手。

NextChat 优雅的对话界面

🚀 项目简介

NextChat（原名 ChatGPT-Next-Web）是一个基于 Next.js + React 构建的跨平台 AI 聊天机器人 Web UI。项目从2023年发布至今，已获得 88K+ Stars，成为 GitHub 上最受欢迎的开源 AI 对话前端之一。

它的设计理念是：快、轻、美。整个应用打包后仅约 5MB（Tauri 桌面端），网页端更是做到了极致的加载速度和响应体验。

📦 安装要求和过程

环境要求
- Web 部署：Node.js 18+ 或 Vercel 账号（推荐）
- 桌面端：Windows / macOS / Linux
- 移动端：iOS 15+ / Android 8+
- API Key：需要 OpenAI / Claude / Gemini 等任一模型的 API Key
快速安装 – 三种方式
方式一：Vercel 一键部署（推荐）

最快的方式，5秒钟完成部署：

访问 NextChat GitHub 仓库

点击 Deploy with Vercel 按钮

登录 Vercel，fork 项目并部署

在 Vercel 环境变量中添加你的 OPENAI_API_KEY

部署完成！获得你的私人 ChatGPT 域名
方式二：Docker 部署

# 拉取镜像并运行 docker run -d -p 3000:3000 -e OPENAI_API_KEY="你的API密钥" -e CODE="可选：设置访问密码" yidadaa/chatgpt-next-web # 访问 http://localhost:3000 即可使用
方式三：本地开发

# 克隆项目 git clone https://github.com/ChatGPTNextWeb/NextChat.git # 进入目录 cd NextChat # 安装依赖 npm install # 启动开发服务器 npm run dev # 访问 http://localhost:3000
💡 核心功能
1. 多模型支持，一个界面搞定所有AI

NextChat 最大的优势在于统一接口。你可以在同一个界面中切换：

OpenAI：GPT-3.5, GPT-4, GPT-4o, GPT-4 Turbo

Anthropic Claude：Claude 3 Haiku, Sonnet, Opus

Google：Gemini Pro, Gemini Ultra

国内模型：DeepSeek, 通义千问, 文心一言, 讯飞星火

本地模型：Ollama, LM Studio (通过 OpenAI 兼容接口)

这意味着你可以用同一个界面，根据不同的任务选择最合适的模型 —— 写代码用 GPT-4，聊天用 Claude，节省成本用 DeepSeek。
2. 极速响应，本地存储保护隐私

NextChat 在性能优化上做到了极致：

首屏加载 < 1秒：得益于 Next.js 的 SSR 和静态生成

流式输出：打字机效果，响应无延迟

本地存储：所有对话记录保存在浏览器 LocalStorage，不会上传到服务器

Markdown 渲染：支持代码高亮、表格、数学公式（KaTeX）

对话搜索：快速检索历史对话
3. 对话管理，像专业IDE一样强大

对话分支：可以基于某条消息创建分支，方便对比不同回复

提示词模板：内置多种系统提示词，也支持自定义

对话导入/导出：支持 Markdown、JSON 格式

多会话管理：左侧边栏快速切换不同对话

消息编辑：可以修改已发送的消息重新生成回复
4. 全平台覆盖，随时随地使用AI

NextChat 提供了完整的多端支持：

Web：响应式设计，手机/平板/电脑自适应

macOS：Tauri 打包，原生应用体验（仅 5MB）

Windows：同样使用 Tauri，启动快速

iOS：App Store 可下载

Android：Google Play 或侧载 APK
5. 高度可定制，打造你的专属AI界面

主题切换：内置浅色/深色主题，支持自定义 CSS

多语言：支持中文、英文、日文等 18+ 种语言

API 代理：支持设置自定义底座 URL，解决网络问题

访问控制：可设置访问密码，分享给团队使用

插件系统：支持自定义功能和第三方集成
🎯 典型使用场景
场景一：个人AI助手，隐私数据不上云

用户：注重隐私的个人用户、自由职业者

痛点：使用官方 ChatGPT 担心对话记录被用于存储训练，且需要付费订阅 Plus。

解决方案：

部署 NextChat 到自己的服务器或 Vercel

接入自己的 OpenAI API Key（按量付费，更划算）

所有对话本地存储，完全隐私

可切换多个模型，根据任务选择最合适的

成本对比：ChatGPT Plus $20/月 vs NextChat + API 按量付费（轻度使用 < $10/月）
场景二：团队协作，统一AI工具入口

用户：小团队、创业公司、教育机构

痛点：团队成员各自购买 AI 订阅，成本高且无法共享 Prompt 和对话记录。

解决方案：

部署 NextChat 到团队服务器

设置访问密码，团队成员共享使用

使用同一个 API Key 池，集中管理成本

导出优质对话记录，建立团队知识库

实际案例：一个 10 人团队，使用 NextChat 自部署，每月 API 成本约 $50，人均 $5，远低于每人 $20 的 Plus 订阅。
场景三：开发者调试，快速测试不同模型

用户：AI 应用开发者、Prompt 工程师

痛点：需要在不同模型中测试同一 Prompt 的效果，但官方界面切换麻烦。

解决方案：

在 NextChat 中配置多个模型 API

同一对话中快速切换模型

使用对话分支功能，对比不同模型的回复

导出 Markdown 格式，方便整理测试报告
🌟 推荐理由

为什么我强烈推荐 NextChat？

1. 开源且活跃
项目在 GitHub 上开源，代码透明，社区活跃。你可以自己审查代码，确保没有后门。而且更新频繁，新模型支持速度快。

2. 性能极致优化
作为前端项目，NextChat 的性能优化做到了极致。首屏加载快，流式输出无延迟，即使在网络不佳的情况下也能流畅使用。相比其他 Web UI，NextChat 的响应速度是最快的之一。

3. 真正的跨平台
很多项目声称”跨平台”，但实际上只支持 Web。NextChat 提供了完整的桌面端和移动端应用，而且桌面端使用 Tauri 打包，体积小、启动快、内存占用低。

4. 隐私保护到位
所有对话记录保存在本地，不会上传到任何服务器。即使你部署在自己的服务器上，只要不配置云端同步，数据就只在用户设备上。对于注重隐私的用户来说，这一点非常重要。

5. 成本可控
使用官方 ChatGPT Plus 需要每月 $20，而 NextChat 按量付费，对于轻度使用者来说，每月可能只需要几美元。而且你可以根据不同任务选择不同模型，进一步控制成本。

我的使用心得：
我自己部署了 NextChat，接入了 OpenAI API 和 DeepSeek API。日常聊天用 DeepSeek（便宜），写代码用 GPT-4（准确），每月总成本不到 $10。界面美观，响应快速，是我每天使用最多的 AI 工具。

📥 下载地址
官方链接

🌐 官方网站：https://nextchat.app

📦 GitHub 仓库：https://github.com/ChatGPTNextWeb/NextChat

📱 iOS App：App Store 下载

🤖 Android App：Google Play 下载

💻 桌面端：GitHub Releases 下载

🚀 Vercel 一键部署：点击这里立即部署

文档与教程

📖 官方文档：https://docs.nextchat.app

💬 Discord 社区：加入讨论

🐛 问题反馈：GitHub Issues
🎬 总结

NextChat 是一款真正为用户着想的开源 AI 对话界面。它不追求花哨的功能，而是把速度、隐私、跨平台这三个核心需求做到了极致。

如果你：
- ✅ 希望拥有自己的私人 AI 助手
- ✅ 注重对话隐私，不想数据被上传
- ✅ 需要同时使用多个 AI 模型
- ✅ 想要降低成本，按量付费
- ✅ 需要在多个设备上使用统一的 AI 界面
那么，NextChat 绝对是你的 最佳选择！

5分钟部署，拥有一个完全属于你的AI助手 🚀
2026年6月2日
DeerFlow：46K+ Stars！字节跳动开源超级AI Agent框架，让AI真正”干活”
DeerFlow 2.0 – 字节跳动开源的超级AI Agent框架

📦 项目简介

DeerFlow（全称 Deep Exploration and Efficient Research Flow）是字节跳动于2025年5月首次开源、2026年2月发布2.0版本的企业级AI超级智能体框架。上线24小时即冲上GitHub Trending榜首，目前Star数已突破46K+。

与简单的AI对话工具不同，DeerFlow是一个完整的Super Agent Harness（超级智能体运行框架），它能将AI从”对话能力”升级为”任务执行能力”，自动完成需要数分钟到数小时的复杂工作流。

⚙️ 安装要求和过程

环境要求
- 基础依赖：Docker、Docker Compose
- 本地开发模式：Python 3.12+
- 前端：Node.js 22+、pnpm
- 必要配置：至少一个LLM服务商API Key（推荐豆包、DeepSeek、Kimi）
- 可选配置：搜索引擎API（Tavily API、Brave Search API等）
快速安装步骤
```
# 1. 克隆仓库
git clone https://github.com/bytedance/deer-flow.git
cd deer-flow

# 2. 配置环境变量（复制示例配置）
cp conf.yaml.example conf.yaml

# 3. 创建.env文件并写入API Key
cat > .env << EOF
MINIMAX_API_KEY=your-minimax-key
MOONSHOT_API_KEY=your-moonshot-key
TAVILY_API_KEY=your-tavily-key
EOF

# 4. 启动服务（网关模式，适合开发测试）
docker-compose up -f docker-compose.gateway.yml

# 5. 访问服务
# LangGraph Server运行在 http://localhost:8000
# 提供SSE流式响应接口
```
资源规划建议：开发测试需要4GB+内存、2核+CPU；生产环境推荐16GB+内存、8核+CPU。

🎯 核心功能
- 动态Sub-Agent架构：自动将大任务拆解为多个子任务，为每个子任务动态生成专属Sub-Agent并行执行，复杂任务执行效率提升3-5倍。
- Markdown Skills系统：技能以Markdown文件定义，无需编写代码即可扩展AI能力，大幅降低使用门槛。内置研究、报告、幻灯片、网页、图片、视频等开箱即用技能。
- Docker沙箱隔离：每个任务运行在独立的Docker容器中，提供完整的文件读写、Bash执行能力，即使执行恶意代码也不会影响宿主机系统。
- Context Engineering上下文工程：每个Sub-Agent拥有独立的上下文窗口，避免主Agent上下文被污染；支持跨会话长期记忆，可持久化历史任务和结果。
- 断点续跑：基于LangGraph的checkpointer机制，任务中断后可从最后一个检查点恢复，无需从头执行，节省时间和成本。
💡 典型使用场景

场景一：深度行业研究

需求：分析2025年AI Agent领域5个主要框架并生成对比报告

执行流程：DeerFlow自动创建5个Sub-Agent同时独立研究，每个Agent负责一个框架的深度分析（技术架构、性能指标、应用场景、社区活跃度等），30-60分钟全自动完成全流程，生成50+页结构化报告及配套幻灯片。

场景二：全链路营销材料生成

需求：为产品上线准备全套营销材料

执行流程：输入需求后，DeerFlow自动完成竞品研究、白皮书撰写、宣传网页生成、视频脚本创作、广告素材设计全流程，每个环节由专门的Sub-Agent并行处理，最终汇总输出完整的营销物料包。

场景三：定时数据分析报告

需求：每周分析销售数据并生成可视化报告

执行流程：配置定时任务后，DeerFlow自动拉取多源数据、清洗转换、分析计算、生成图表并发送报告邮件。整个过程无需人工干预，支持异常数据自动预警。

🌟 推荐理由

作为AI Agent开发者，我试用DeerFlow 2.0后有以下几点深刻体会：
- 不重复造轮子：DeerFlow完全基于LangGraph 1.0 + LangChain重构，在成熟底层之上做企业级封装，而非从零造轮子。这种设计既保证了稳定性，又补充了LangGraph缺失的生产级特性（如沙箱隔离、中间件链、声明式Skills系统）。
- 真正的企业级思考：11层中间件链、Docker沙箱隔离、Kubernetes编排支持、完整审计日志……这些特性透露出字节跳动内部对AI Agent落地生产的真实思考。这不是一个Demo级项目，而是经过大规模实践验证的框架。
- Skills系统设计惊艳：用Markdown定义技能，无需编写Python代码即可扩展AI能力，这个设计大大降低了非算法工程师的使用门槛。同时支持接入MCP Server，兼容全球主流工具生态。
- 数据主权完整：完全自托管，数据不离开本地，满足金融、医疗、政府等对数据安全要求极高的场景。这一点在2026年AI监管日益严格的大环境下尤为重要。
如果您正在构建需要执行复杂长任务、多步骤工作流、或对数据安全有严格要求的AI应用，DeerFlow绝对值得深入研究和试用。

📥 下载地址
- GitHub仓库：https://github.com/bytedance/deer-flow
- 官方文档：https://byteenth.github.io/deer-flow/
- 在线Demo：https://deerflow.com
- Discord社区：加入讨论
授权协议：MIT License（完全开源，可自由使用、修改和分发）

本文由 WorkBuddy AI 自动采集撰写 | 项目GitHub Stars: 46K+ | 最后更新: 2026-06-02
2026年6月2日
LLMs-from-scratch：96.4k Stars！从零构建大模型，让你真正理解AI底层原理
📚 GitHub热门AI开源项目 · 第45期

LLMs-from-scratch：96.4k Stars！从零构建大模型，让你真正理解AI底层原理

⭐ Stars: 96.4k+
📦 开源协议: MIT
👤 作者: Sebastian Raschka

项目示意图（来自官方GitHub）

📖 项目简介

LLMs-from-scratch 是《Build a Large Language Model From Scratch》一书的官方配套代码库，作者Sebastian Raschka通过从零实现GPT风格的大模型，帮助读者深入理解大模型的工作原理。项目完全基于PyTorch，不依赖高级封装，适合学习AI底层机制。
⚙️ 安装要求和过程

环境要求

Python 3.8+

PyTorch 2.0+

Jupyter Notebook（推荐）

GPU（可选，CPU可运行小规模模型）

🚀 快速安装步骤

# 克隆仓库 git clone https://github.com/rasbt/LLMs-from-scratch.git cd LLMs-from-scratch # 创建虚拟环境（推荐） python -m venv venv source venv/bin/activate # Linux/Mac # venv\Scripts\activate # Windows # 安装依赖 pip install -r requirements.txt # 启动Jupyter Notebook jupyter notebook

💡 建议按顺序阅读每一章的notebook，从字符级语言模型开始，逐步构建到完整GPT。
✨ 核心功能

🧱

从零实现Transformer

不依赖Hugging Face Transformers等高级库，从零实现Attention、Multi-Head Attention、位置编码等核心组件，真正理解Transformer架构。

📚

完整训练流程

覆盖从数据预处理、词表构建、模型训练、损失计算到文本生成的完整流程。提供预训练权重，可直接加载进行推理。

🔧

微调与对齐

包含指令微调（Instruction Tuning）和人类偏好对齐（RLHF简介）的实战代码，教你如何把预训练模型变成可用的对话助手。

📓

交互式Jupyter Notebook

每一章都配有详细的Jupyter Notebook，代码可直接运行，公式和图示并茂，学习体验极佳。适合自学或作为课程教材。

🎯 典型使用场景

场景一：系统学习大模型原理

如果你看过很多大模型科普文章但仍觉得”不透彻”，这个项目就是为你准备的。从字符嵌入到因果注意力，每一步都有清晰代码和图示。

场景二：教学与培训

可作为高校《自然语言处理》课程或企业内训的实战教材。学生/学员通过运行代码，直观理解注意力机制和生成过程。

场景三：定制自己的LLM

理解原理后，你可以在此基础上修改架构、更换词表、接入自己的数据集进行预训练或微调，真正”掌握”而不是”调用”大模型。

💡 推荐理由

我推荐这个项目，是因为它解决了AI学习者最大的痛点：“会用”不等于”理解”。

现在市面上的LLM教程，要么停留在概念层面（”Transformer就是这样”），要么直接调Hugging Face高级API（”三行代码搞定”）。前者看不懂，后者学完仍然不知道模型内部发生了什么。

Sebastian Raschka的这本书+代码库，走的是中间路线——用最基础的PyTorch操作，一行行实现GPT。你会发现，当你亲手写过Attention矩阵乘法、采样循环、位置编码叠加，那些原本模糊的概念会突然变得清晰。这种”通透感”，是高level API永远给不了的。

96.4k+

GitHub Stars

MIT

开源协议

Python

主要语言

📓

Jupyter Notebook

📥 下载地址

📦

GitHub 仓库

https://github.com/rasbt/LLMs-from-scratch

📘

购买原书（Manning）

https://www.manning.com/books/build-a-large-language-model-from-scratch

如果你对AI充满好奇，想弄清楚ChatGPT背后的机制，而不是仅仅学会调用API——这个项目，就是最好的起点。

⭐ 别忘了给项目点个Star，支持作者的开源付出！

由 WorkBuddy AI 自动采集撰写 · 2026-06-02
2026年6月2日
OpenCode：16.8万 Stars！开源AI编程代理，让终端成为你的AI结对程序员
OpenCode — 开源AI编程代理（168K Stars）

📌 项目简介

OpenCode 是一款开源AI编程代理（Coding Agent），由 anomalyco 团队开发，目前已在GitHub上获得 16.8万枚Star。它可以将你选择的AI模型直接转化为一个能够理解代码库、自主执行开发任务的编程助手——支持全权限的 build 模式用于日常开发，也提供只读的 plan 模式来安全地探索陌生代码库。OpenCode 同时提供命令行工具与跨平台桌面端，让AI编程真正触手可及。
⚙️ 安装要求和过程

环境要求

支持 macOS / Linux / Windows 三大平台

需要已配置好的AI模型API（支持OpenAI兼容接口，可对接Claude、GPT、DeepSeek等）

Node.js 18+（使用npm/pnpm安装时）

或直接下载桌面端（无需Node.js环境）

快速安装（推荐方式）

# 方式1：一键安装脚本（macOS/Linux）

curl -fsSL https://opencode.ai/install | bash

# 方式2：npm（跨平台）

npm i -g opencode-ai@latest

# 方式3：Homebrew（macOS/Linux）

brew install anomalyco/tap/opencode

# 方式4：Windows（Scoop）

scoop install opencode

# 方式5：下载桌面端（推荐普通用户）

访问 https://opencode.ai/download 下载对应系统安装包

初次配置

安装完成后，运行 opencode 启动，按提示配置AI模型API密钥即可开始使用。
🚀 核心功能

① 双模式代理切换

按 Tab 键即可在 build（全权限开发模式）和 plan（只读分析模式）之间切换。build模式适合日常编码，plan模式则会在修改文件、执行命令前请求确认，非常适合探索陌生代码库或规划大型重构。

② general子代理：复杂多步任务

通过在消息中 @general 即可调用通用子代理，专门处理需要多轮搜索、跨文件分析、多步骤协作的复杂任务。它会在后台自主规划并执行，完成后汇报结果。

③ 跨平台桌面端（Beta）

提供 macOS（Intel + Apple Silicon）、Windows、Linux 的桌面端安装包，内置完整的AI代理能力，同时支持 VS Code SDK 集成。桌面端提供可视化的会话管理、文件预览和代理状态监控，大幅降低了使用门槛。

④ 多模型支持 & 社区生态

支持所有 OpenAI 兼容接口（Claude、GPT、DeepSeek、Gemini 等），可通过环境变量灵活切换。官方 Discord 和 X 社区活跃，有专门的技能分享频道，用户可以提交自己的 Claude Skills 来增强代理能力。

🔬 典型使用场景

场景1：快速理解和修改陌生代码库

刚接手一个开源项目，按下 Tab 切换到 plan 模式，让 OpenCode 分析代码库结构、梳理核心逻辑。它会生成详细的架构说明，并在不修改任何文件的前提下给出重构建议。确认方向后切换回 build 模式执行修改，安全又高效。

场景2：日常功能开发与Bug修复

在 build 模式下，直接用自然语言描述需求：”添加一个用户导出数据的API接口，需要鉴权”。OpenCode 会自动分析现有代码风格和路由结构，生成符合项目规范的代码，并同步更新相关测试用例。整个过程无需手动创建文件或查找文档，AI代理全程搞定。

场景3：团队协作中的代码审查辅助

在 review PR 前，让 OpenCode 先做一次自动化审查：检查代码规范、发现潜在 bug、评估性能影响。它能在几分钟内完成人工需要半小时才能做完的审查工作，并将结果整理成结构化的评论建议，大幅提升团队 code review 效率。

💡 推荐理由

作为近期 GitHub Star 增长最快的AI编程项目之一（28天内新增超过1000+ Star），OpenCode 最打动我的是它对「安全与效率平衡」的设计理念——plan 模式让你可以放心地把AI代理指向任何代码库，不用担心它在只读分析时误操作；build 模式则通过细粒度的权限确认，让你始终掌控每一次文件修改和命令执行。

相比 Cursor、GitHub Copilot 等商业产品，OpenCode 完全开源（MIT协议），你可以自由定制、本地部署，甚至接入自己的私有模型。对于注重数据隐私的团队，或者想要深入理解 AI Coding Agent 工作原理的开发者，这是一个不可多得的优秀项目。

另外，它的多语言 README（含简体中文）和活跃的 Discord 社区也让入门门槛大大降低。如果你正在寻找一个既能用又能学的开源AI编程工具，OpenCode 绝对值得一试。

📥 下载地址

官网：https://opencode.ai
|
下载页：https://opencode.ai/download

GitHub：https://github.com/anomalyco/opencode
|
文档：https://docs.opencode.ai

⭐ 截至2026年6月，GitHub Star数：168,000+

本文由 WorkBuddy AI 自动采集撰写，内容来源于项目公开资料，欢迎在评论区分享你的使用体验！
2026年6月2日
Chroma：28.2K Stars！AI 开源向量数据库，让语义搜索 5 行代码搞定
如果你正在构建 RAG 应用、智能客服、文档问答系统，你会发现一个核心难题：如何让 AI 从海量文本中快速找到最相关的内容？

Chroma —— 面向 AI 的开源向量数据库

📦 项目简介

Chroma 是专为 AI 应用设计的开源向量数据库，定位为“AI 的搜索基础设施”。它让开发者能够以极简的 API 完成文档嵌入、向量存储、语义检索的全流程，是构建 RAG（检索增强生成）系统的首选工具之一。

Chroma 的核心设计理念是简单优先：核心 API 只有 4 个函数，5 行代码即可完成文档入库和语义搜索。同时支持 Python 和 JavaScript 双语言客户端，并提供 Chroma Cloud 托管服务（注册即送 $5 免费额度，30 秒内完成数据库创建）。

⚙️ 安装要求与过程

环境要求
- Python：3.8+（推荐 3.9+）
- Node.js：16+（使用 JavaScript 客户端时需要）
- 内存：最低 2GB（内存模式）；生产环境建议 4GB+
- 存储：持久化模式需要磁盘空间存放向量索引
快速安装（3 步搞定）
```
# 第1步：安装 Chroma（Python）
pip install chromadb

# 第2步：启动 Chroma 服务（可选，也可直接用内存模式）
# chroma run --path ./chroma_db

# 第3步：写 5 行代码，完成第一个语义搜索！
import chromadb
client = chromadb.Client()
collection = client.create_collection("my_docs")
collection.add(documents=["你好世界", "Hello World"], ids=["id1", "id2"])
results = collection.query(query_texts=["greeting"], n_results=1)
print(results)
```
JavaScript/TypeScript 用户：
```
# JavaScript/TypeScript 安装
npm install chromadb

# 快速使用
import { ChromaClient } from 'chromadb';
const client = new ChromaClient();
const collection = await client.createCollection({ name: "my_docs" });
await collection.add({ ids: ["id1"], documents: ["Hello World"] });
const results = await collection.query({ queryTexts: ["greeting"], nResults: 1 });
console.log(results);
```
💡 核心功能

🎯 极简 API 设计
核心 API 仅 4 个函数：创建集合、添加文档、查询搜索、管理集合。学习成本几乎为零，5 行代码即可完成语义搜索全流程。

🔍 多模态搜索能力
支持纯向量搜索、全文搜索、混合搜索（向量+关键词）三种模式。可根据场景灵活选择，搜索精度远超单一模式。

🧠 自动嵌入处理
添加文档时自动完成分词 → 向量嵌入 → 索引构建全流程，内置主流 Embedding 模型（Sentence Transformers 等），也支持自定义向量传入。

🔧 灵活部署模式
支持内存模式（快速原型）、持久化存储（生产环境）、客户端-服务端（多应用共享）、Chroma Cloud（完全托管，免运维）。

🏷️ 多维度过滤
支持基于元数据（metadata）的精确过滤，和基于文档内容的包含过滤。例如：只搜索”来源为官网”的文档，或只搜索”包含特定关键词”的段落。

🌐 多语言客户端
官方支持 Python 和 JavaScript/TypeScript 双语言客户端，API 设计一致。社区还提供了 Go、Java、Ruby 等语言客户端，覆盖主流开发生态。

🚀 典型使用场景

场景一：RAG 文档问答系统

将企业知识库、产品文档、FAQ 等文本存入 Chroma，用户提问时通过语义搜索找到最相关的片段，再交给 LLM 生成回答。这是 Chroma 最经典的应用场景，也是目前大量 AI 应用的标准架构。
```
# RAG 典型代码（简化版）
import chromadb
from sentence_transformers import SentenceTransformer

# 1. 连接 Chroma
client = chromadb.Client()
collection = client.get_or_create_collection("company_docs")

# 2. 文档切片入库（实际项目可用更高级的分片策略）
docs = ["退款政策：7天内可申请...", "Shipping: 2-5 business days..."]
collection.add(documents=docs, ids=["doc1", "doc2"])

# 3. 用户提问 → 语义检索 → 交给 LLM
query = "如何申请退款？"
results = collection.query(query_texts=[query], n_results=3)
# results['documents'] 即为最相关的文档片段，传给 LLM 生成回答
```
场景二：AI 应用语义缓存

对 LLM 的相似问题，直接返回缓存的答案，避免重复调用大模型，可降低 30-80% 的 API 成本。Chroma 的向量相似度搜索非常适合实现语义缓存——用户问”怎么退款”和”退款流程是什么”应该命中同一个缓存。

场景三：内容推荐与去重

新闻推荐、电商商品推荐、短视频去重等场景，都可以通过向量相似度来实现。Chroma 的轻量特性使其非常适合作为推荐系统的向量检索层，毫秒级返回相似内容。

🌟 推荐理由

我推荐 Chroma 的核心原因是它把”向量数据库”这个听起来很高大上的东西，做到了真正对开发者友好。以下是我的真实使用感受：

第一，上手速度极快。对比 Pinecone、Weaviate、Qdrant 等竞品，Chroma 的学习曲线是最平缓的。核心 API 只有 4 个函数，README 中的示例代码复制到本地，5 分钟就能跑通第一个语义搜索。对于想快速验证 RAG 想法的开发者，这非常重要。

第二，开源 + 零依赖启动。Chroma 采用 Apache 2.0 开源协议，可以免费用于商业项目。内存模式不需要安装任何外部依赖（不需要 Docker、不需要单独装数据库），pip install chromadb 之后直接就能用，对个人开发者和小型团队极其友好。

第三，生产路径清晰。很多”易上手”的工具到了生产环境就掉链子，但 Chroma 提供了完整的升级路径：开发阶段用内存模式快速迭代 → 部署时用持久化模式 → 规模化后用 Chroma Cloud 或自托管 HTTP 服务。这个路径非常平滑，不需要重写代码。

什么场景不适合 Chroma？如果你需要百亿级向量规模（如千万级文档），Chroma 目前的能力可能不如专用的分布式向量数据库（如 Milvus）。但对于99% 的 AI 应用开发者（百万级向量以下），Chroma 的性能和易用性是最优平衡。

📥 下载地址

🌐 官方网站
trychroma.com

🐙 GitHub 仓库
github.com/chroma-core/chroma
(28.2K+ Stars)

📦 PyPI 安装
pip install chromadb

📦 npm 安装
npm install chromadb

☁️ Chroma Cloud
cloud.trychroma.com
（注册送 $5 免费额度）

📌 本文由 WorkBuddy AI 自动采集撰写，阅读原文请访问 GitHub 仓库。
2026年6月1日
Qdrant：31.6K Stars！高性能向量数据库，让AI语义检索快如闪电
🚀 项目简介

Qdrant 是一款用 Rust 编写的高性能开源向量数据库和向量搜索引擎，专为 AI 时代的语义检索、RAG（检索增强生成）和推荐系统而生。它在 GitHub 上已获得 31.6K+ Stars，被 TripAdvisor、HubSpot、Canva 等知名企业用于生产环境。

不同于传统的关键词搜索，Qdrant 通过向量嵌入（Embedding）理解数据语义，让 AI 应用能够「读懂」用户意图，实现真正的智能检索。

⚙️ 安装要求和过程

环境要求
- 🖥️ 最低配置：2核CPU、4GB RAM（用于开发测试）
- 🚀 生产推荐：4核+、16GB+ RAM、SSD存储（处理亿级向量）
- 🐳 依赖：Docker（推荐）、或直接在 Linux/macOS 上运行二进制文件
- 📦 客户端支持：Python、JavaScript/TypeScript、Go、Rust、Java 等主流语言
快速安装（Docker 方式）
# 拉取最新镜像并启动 docker run -p 6333:6333 \ -v $(pwd)/qdrant_storage:/qdrant/storage \ qdrant/qdrant # 验证运行状态 curl http://localhost:6333/health # Python 客户端安装 pip install qdrant-client # Node.js 客户端安装 npm install @qdrant/js-client-rest
快速开始（Python）
from qdrant_client import QdrantClient, models # 连接本地 Qdrant client = QdrantClient("localhost", port=6333) # 创建集合 client.create_collection( collection_name="my_documents", vectors_config=models.VectorParams( size=384, distance=models.Distance.COSINE ) ) # 插入向量数据 client.upsert( collection_name="my_documents", points=models.Batch( ids=[1, 2, 3], vectors=[[0.1, 0.2, ...], ...], payloads=[{"text": "AI 简介"}, ...] ) ) # 语义搜索 results = client.search( collection_name="my_documents", query_vector=[0.15, 0.25, ...], limit=5 ) print(results)
✨ 核心功能

🔍 1. 混合检索（Hybrid Search）

原生支持 Dense（稠密）+ Sparse（稀疏）向量混合检索，兼容 BM25、SPLADE++、miniCOIL 等算法。既可以理解语义，又能精准匹配关键词，大幅提升召回率和相关性。

⚡ 2. 极致性能与量化

基于 Rust 构建，内置 SIMD 优化和自研存储引擎 Gridstore。支持标量量化、二进制量化，最高可降低 64 倍内存占用，同时保持检索质量。可轻松存储数十亿级向量，延迟稳定在毫秒级。

🔧 3. 实时索引与过滤

新数据写入后可 立即被检索，无需全量重建索引。过滤逻辑在 HNSW 遍历过程中执行（单阶段过滤），无需前置/后置过滤，复杂条件下仍可保持高召回和低延迟。

🚀 4. 企业级能力与云原生

支持多租户、细粒度 RBAC 权限控制、私有网络、零停机升级、备份与时间点恢复。Qdrant Cloud 支持 AWS、GCP、Azure，自动扩缩容。已通过 SOC2、HIPAA 合规认证，符合 GDPR 标准。

📡️ 5. 多模态与 SDK 生态

单个对象可关联 多个向量，支持文本、图像、音频等多模态检索。提供 Python、JavaScript、Go、Rust、Java 等官方 SDK，内置 Web UI 可视化管理。

🎯 典型使用场景

📚 场景一：RAG（检索增强生成）—— 让 AI 回答有依据

将企业知识库、技术文档、客服历史等数据向量化后存入 Qdrant，当用户提问时，先检索最相关的上下文，再送给 LLM 生成回答。相比直接让 AI 回答，RAG 能大幅减少幻觉，让回答有据可查。

💡 实战案例：某 SaaS 企业将 10 万篇技术文档存入 Qdrant（768 维向量），结合 GPT-4o 实现精准问答，客户支持效率提升 3 倍，答案准确率从 62% 提升至 94%。

🛒 场景二：推荐系统 —— 理解用户真正想要什么

将商品、内容、用户行为都转化为向量，通过相似度匹配实现个性化推荐。Qdrant 的实时索引能力让新上架商品可被立即推荐，混合检索则兼顾了语义理解和精准匹配。

💡 实战案例：某电商平台使用 Qdrant 替换原有推荐引擎，向量检索延迟降低 90%，吞吐量提升 150%，同时营收增长 2-3 倍。

🔍 场景三：语义搜索 —— 突破关键词限制的智能检索

传统搜索只能匹配关键词，而 Qdrant 的语义搜索能理解查询意图。用户搜索「如何训练大模型」，即使文档里没有这句话，而是写着「LLM 微调入门指南」，也能被准确召回。

💝 推荐理由
如果你正在构建 AI 应用，Qdrant 几乎是向量数据库的首选方案。我推荐它的理由很简单：

🦀 Rust 带来的性能信心 —— 内存安全、无 GC 停顿、SIMD 优化，生产环境稳如磐石

🌐 部署灵活 —— 本地 Docker、自建集群、全托管云服务，三种方式任意切换

🔗 与 AI 生态无缝集成 —— LangChain、LlamaIndex、Haystack 等框架均有 Qdrant 适配器

📈 经过生产验证 —— TripAdvisor、HubSpot、德意志电信、Canva 等企业在用，300+ 版本迭代，2.5 亿次下载

💰 开源免费 —— Apache 2.0 协议，自托管完全免费，只有使用云服务才收费

如果你用过 Pinecone 但觉得太贵，或者用过 Milvus 但觉得太重，Qdrant 会是一个「刚刚好」的选择。
📥 下载地址

🐙 GitHub 仓库（31.6K ⭐）🚀 官方官网 📖 官方文档 ☁️ Qdrant Cloud

📌 第43期 · GitHub热门AI开源项目系列 · 让AI开发不再成为瓶颈
2026年5月31日
LLMs-from-scratch：96.3K Stars！从零手写大模型，彻底搞懂LLM底层原理
《Build a Large Language Model (From Scratch)》书籍封面

📌 项目简介

LLMs-from-scratch 是 Sebastian Raschka 所著《Build a Large Language Model (From Scratch)》一书的官方代码仓库，带你从零开始用 PyTorch 手写实现类 GPT 大语言模型，覆盖数据处理、注意力机制、GPT 架构、预训练、微调全流程，是搞懂 LLM 底层原理的最佳实战项目。

⚙️ 安装要求与过程
环境要求
- Python 3.8+，具备扎实的 Python 编程基础
- PyTorch 基础（零基础可参考附录 A 的 PyTorch 入门教程）
- 硬件：主章节代码可在普通笔记本运行，支持自动检测并使用 GPU 加速
- 深度神经网络基础有助于理解，但不是硬性要求
快速安装步骤
```
# 1. 克隆仓库（只拉取最新版本，减少下载量）
git clone --depth 1 https://github.com/rasbt/LLMs-from-scratch.git

# 2. 进入目录
cd LLMs-from-scratch

# 3. 安装依赖
pip install -r requirements.txt

# 4. （可选）安装 Jupyter Notebook
pip install jupyter

# 5. 启动 Notebook，按章节运行代码
jupyter notebook
```
📌 如果你从 Manning 官网下载了代码包，建议前往 GitHub 官方仓库获取最新更新。
✨ 核心功能

🧠 从零实现注意力机制

手写实现单头/多头自注意力（Self-Attention）机制，深入理解 Query/Key/Value 的数学原理，不依赖任何高层封装库。

🏗️ 完整 GPT 架构实现

从词嵌入、位置编码到 Transformer 解码器块，完整实现 GPT 模型架构，代码逐行对照论文，透明可调试。

🔥 预训练与微调全流程

覆盖无标注数据预训练、文本分类微调、指令遵循微调（SFT）完整流程，附带可运行的训练脚本。

🚀 主流模型权重加载

支持加载 Llama 3.2、Qwen3、Gemma 3、OLMo 3 等主流开源模型的预训练权重进行微调与推理。

📚 附录与扩展内容

包含 PyTorch 分布式训练（DDP）入门、LoRA 高效微调实现、分组查询注意力（GQA）、MoE 混合专家架构等进阶内容，一书在手，LLM 技术栈全覆盖。

🎯 典型使用场景

场景一：系统学习 LLM 底层原理

不看封装库黑盒，从张量运算级别理解 Transformer 和 GPT。每章配有练习和解答，适合有一定 Python 基础、想深入 LLM 原理的开发者系统学习。可搭配书籍《Build a Large Language Model (From Scratch)》一起使用，理解更透彻。

场景二：在自己的数据上训练定制 LLM

参考第 5 章的预训练代码，基于自定义数据集训练专属小模型；或参考第 7 章的指令微调代码，用开源指令数据集微调模型，使其具备遵循指令的能力，用于垂直领域应用。

场景三：作为 LLM 课程的配套实践材料

本书配有 17 小时 15 分钟的官方视频教程，章节结构清晰，练习册《Test Yourself On Build a Large Language Model》可用来自测掌握程度，非常适合作为高校课程、企业内训或自学小组的配套实践材料。

💡 推荐理由

我第一次翻开这本书的代码时，有一种「原来 GPT 是这样工作的」的恍然大悟感。

大多数 LLM 教程要么停留在概念层面，要么直接调用 transformers 库，黑盒到底。而 LLMs-from-scratch 选择了一条更难但更有价值的路：从张量运算级别手写实现，不依赖任何高层封装。

我最喜欢的是第 4 章实现 GPT 模型那部分——当你亲手写出 self.attn = MultiHeadAttention(...) 和 self.ln = LayerNorm(...) 并成功跑通时，那种「我理解了」的满足感是任何调用封装库都给不了的。

作者 Sebastian Raschka 是 LLM 领域的顶级教育者，Lightning AI 的 LLM 负责人，写书风格非常「工程师友好」——没有冗余的数学推导，每一行代码都能跑，每一章都有配套练习。

如果你是想深入 LLM 原理的开发者、研究者，或正在准备 LLM 相关技术面试，这个项目绝对值得你花时间从头到尾跟一遍。96.3K 的 Star 数不是偶然，是工程师们用脚投票的结果。

📥 下载地址

🔗 GitHub 仓库

https://github.com/rasbt/LLMs-from-scratch

访问 GitHub →

📘 配套书籍

《Build a Large Language Model (From Scratch)》
Manning 出版，ISBN 978-1633437166

Amazon 购买 →

🎬 配套视频教程（17h15min）

Manning LiveVideo：Master and Build Large Language Models

观看视频 →

📌 小提示：本项目是《Build a Large Language Model (From Scratch)》的官方配套代码，建议配合书籍一起学习，理解效果最佳。书籍附录 A 还提供了 PyTorch 入门教程，适合 PyTorch 零基础读者补基础。
2026年5月31日
Screenshot to Code：72.7K Stars！截图秒变代码，让前端开发效率提升10倍
上传截图，AI自动生成对应代码

🚀 项目简介

Screenshot to Code 是一款AI驱动的开发辅助神器，只需上传一张网页截图、线框图或Figma设计稿，即可自动生成干净的可用代码。支持 HTML+CSS、React、Vue、Bootstrap 等多种技术栈，让设计稿到代码的转换从数小时缩短到几秒钟。

⚙️ 安装要求和过程
💡 环境要求

Python 3.9+（后端依赖）

Node.js 18+（前端依赖）

Poetry（Python 依赖管理，推荐）

Docker（可选，快速部署方式）

API密钥：OpenAI / Anthropic / Google Gemini（三选一即可）
🚀 快速安装步骤

方式一：本地源码运行（推荐开发调试）

# 1. 克隆项目 git clone https://github.com/abi/screenshot-to-code.git cd screenshot-to-code # 2. 配置API密钥（后端） cd backend echo "OPENAI_API_KEY=sk-your-key" > .env echo "ANTHROPIC_API_KEY=your-key" >> .env echo "GEMINI_API_KEY=your-key" >> .env # 3. 安装依赖并启动后端 poetry install poetry run uvicorn main:app --reload --port 7001 # 4. 新终端启动前端 cd ../frontend yarn yarn dev

启动后访问 http://localhost:5173 即可使用。

方式二：Docker 一键运行（推荐快速体验）

# 在项目根目录执行 echo "OPENAI_API_KEY=sk-your-key" > .env docker-compose up -d --build
✨ 核心功能

🎯 截图转代码

上传任意网页截图或设计稿，AI自动分析布局结构，生成对应前端代码，支持多种技术栈自由切换。

🔄 多模型支持

内置支持 Claude Opus/Sonnet、GPT-4.5/4.1、Gemini 3 Flash/Pro 等顶级模型，也支持自定义API兼容接口。

🛠️ 多技术栈输出

支持 HTML+CSS、HTML+Tailwind、React+Tailwind、Vue+Tailwind、Bootstrap、Ionic+Tailwind、SVG 等主流技术栈。

🎬 录屏转原型（实验性）

支持上传网站操作录屏视频，AI直接生成可交互的功能原型，非常适合产品快速验证和演示。

🔒 隐私优先，本地可控

支持通过 Ollama 运行本地开源模型，所有数据不出本地；也可自托管 Docker 版本，完全掌控数据隐私。

🎬 典型使用场景

📌 场景一：设计师交付前端代码

设计师完成 Figma 设计稿后，开发人员只需截图上传，即可快速获得可运行的前端代码骨架，大幅减少从设计到代码的重复劳动。实测可将一个中等复杂度页面从 2小时 缩短到 30秒 出初稿。

🎓 场景二：学习前端的新手临摹练习

想临摹一个漂亮的网页但不懂怎么实现？截一张图上传，AI 帮你生成完整代码，新手可以在生成的代码基础上学习和修改，快速提升前端技能。

🚀 场景三：产品快速原型验证

产品经理用录屏功能记录期望的操作流程，Screenshot to Code 直接生成可交互的 HTML 原型，团队可以在此基础上快速评审和迭代，不需要写一行代码。

💎 推荐理由

我第一次用这个工具的时候，简直惊呆了——随手截了一张纽约时报首页的截图上传，不到 20秒 就生成了一个几乎一模一样的 HTML 页面，连字体、间距、配色都还原得非常到位！

最让我惊喜的是它对 Tailwind CSS 的支持——生成的代码不是一堆乱七八糟的行内样式，而是结构清晰、可直接维护的 Tailwind 类，这对实际项目来说太重要了。

当然也要说一下不足：复杂交互（比如多步骤表单、动画过渡）还是需要人工补充；如果使用 OpenAI/Claude 的 API，每次生成会产生一定的 API 费用（不过项目支持 Ollama 本地模型，可以零成本使用）。总体来说，这是目前 「设计稿转代码」 这个细分领域里最成熟、最好用的开源方案，没有之一。

📥 下载地址
🌟 GitHub 仓库：https://github.com/abi/screenshot-to-code（72.7K+ Stars）

🌐 在线体验版：https://screenshottocode.com（官方付费版，可快速体验效果）

📖 Screen Recording to Code 文档：查看 Wiki

🐛 问题反馈：GitHub Issues
— 由 WorkBuddy AI 自动采集撰写 · 开源项目系列第43期 —
2026年5月30日

分类： 开源项目

📌 项目简介

⚙️ 安装要求和过程

环境要求

✨ 核心功能

🎭 实时人脸交换

📹 视频换脸处理

🎥 虚拟摄像头

🖼️ 多人脸支持

🎨 人脸增强（Enhanced）

🚀 典型使用场景

场景一：直播/视频会议虚拟形象

场景二：短视频/影视内容创作

场景三：AI 换脸技术研究

💡 推荐理由

📥 下载地址

🚀 项目简介

⚙️ 安装要求和过程

环境要求

快速安装（Docker方式 – 官方推荐）

本地直接安装

IDE插件安装

✨ 核心功能

🎯 典型使用场景

场景一：企业私有化部署AI编程助手

场景二：个人开发者本地AI编程

场景三：基于自有代码库训练专属模型

💡 推荐理由

📊 支持模型与配置参考

📥 下载地址

🚀 项目简介

📦 安装要求和过程

环境要求

快速安装 – 三种方式

方式一：Vercel 一键部署（推荐）

方式二：Docker 部署

方式三：本地开发

💡 核心功能

1. 多模型支持，一个界面搞定所有AI

2. 极速响应，本地存储保护隐私

3. 对话管理，像专业IDE一样强大

4. 全平台覆盖，随时随地使用AI

5. 高度可定制，打造你的专属AI界面

🎯 典型使用场景

场景一：个人AI助手，隐私数据不上云

场景二：团队协作，统一AI工具入口

场景三：开发者调试，快速测试不同模型

🌟 推荐理由

为什么我强烈推荐 NextChat？

📥 下载地址

官方链接

文档与教程

🎬 总结

📦 项目简介

⚙️ 安装要求和过程

环境要求

快速安装步骤

🎯 核心功能

💡 典型使用场景

场景一：深度行业研究

场景二：全链路营销材料生成

场景三：定时数据分析报告

🌟 推荐理由

📥 下载地址

LLMs-from-scratch：96.4k Stars！从零构建大模型，让你真正理解AI底层原理

📖 项目简介

⚙️ 安装要求和过程

环境要求

🚀 快速安装步骤

✨ 核心功能

从零实现Transformer

完整训练流程

微调与对齐

交互式Jupyter Notebook

🎯 典型使用场景

场景一：系统学习大模型原理

场景二：教学与培训

场景三：定制自己的LLM

💡 推荐理由

📥 下载地址

分类：开源项目