标签： AI Agent

LLMs-from-scratch：96.4k Stars！从零构建大模型，让你真正理解AI底层原理
📚 GitHub热门AI开源项目 · 第45期

LLMs-from-scratch：96.4k Stars！从零构建大模型，让你真正理解AI底层原理

⭐ Stars: 96.4k+
📦 开源协议: MIT
👤 作者: Sebastian Raschka

项目示意图（来自官方GitHub）

📖 项目简介

LLMs-from-scratch 是《Build a Large Language Model From Scratch》一书的官方配套代码库，作者Sebastian Raschka通过从零实现GPT风格的大模型，帮助读者深入理解大模型的工作原理。项目完全基于PyTorch，不依赖高级封装，适合学习AI底层机制。
⚙️ 安装要求和过程

环境要求

Python 3.8+

PyTorch 2.0+

Jupyter Notebook（推荐）

GPU（可选，CPU可运行小规模模型）

🚀 快速安装步骤

# 克隆仓库 git clone https://github.com/rasbt/LLMs-from-scratch.git cd LLMs-from-scratch # 创建虚拟环境（推荐） python -m venv venv source venv/bin/activate # Linux/Mac # venv\Scripts\activate # Windows # 安装依赖 pip install -r requirements.txt # 启动Jupyter Notebook jupyter notebook

💡 建议按顺序阅读每一章的notebook，从字符级语言模型开始，逐步构建到完整GPT。
✨ 核心功能

🧱

从零实现Transformer

不依赖Hugging Face Transformers等高级库，从零实现Attention、Multi-Head Attention、位置编码等核心组件，真正理解Transformer架构。

📚

完整训练流程

覆盖从数据预处理、词表构建、模型训练、损失计算到文本生成的完整流程。提供预训练权重，可直接加载进行推理。

🔧

微调与对齐

包含指令微调（Instruction Tuning）和人类偏好对齐（RLHF简介）的实战代码，教你如何把预训练模型变成可用的对话助手。

📓

交互式Jupyter Notebook

每一章都配有详细的Jupyter Notebook，代码可直接运行，公式和图示并茂，学习体验极佳。适合自学或作为课程教材。

🎯 典型使用场景

场景一：系统学习大模型原理

如果你看过很多大模型科普文章但仍觉得”不透彻”，这个项目就是为你准备的。从字符嵌入到因果注意力，每一步都有清晰代码和图示。

场景二：教学与培训

可作为高校《自然语言处理》课程或企业内训的实战教材。学生/学员通过运行代码，直观理解注意力机制和生成过程。

场景三：定制自己的LLM

理解原理后，你可以在此基础上修改架构、更换词表、接入自己的数据集进行预训练或微调，真正”掌握”而不是”调用”大模型。

💡 推荐理由

我推荐这个项目，是因为它解决了AI学习者最大的痛点：“会用”不等于”理解”。

现在市面上的LLM教程，要么停留在概念层面（”Transformer就是这样”），要么直接调Hugging Face高级API（”三行代码搞定”）。前者看不懂，后者学完仍然不知道模型内部发生了什么。

Sebastian Raschka的这本书+代码库，走的是中间路线——用最基础的PyTorch操作，一行行实现GPT。你会发现，当你亲手写过Attention矩阵乘法、采样循环、位置编码叠加，那些原本模糊的概念会突然变得清晰。这种”通透感”，是高level API永远给不了的。

96.4k+

GitHub Stars

MIT

开源协议

Python

主要语言

📓

Jupyter Notebook

📥 下载地址

📦

GitHub 仓库

https://github.com/rasbt/LLMs-from-scratch

📘

购买原书（Manning）

https://www.manning.com/books/build-a-large-language-model-from-scratch

如果你对AI充满好奇，想弄清楚ChatGPT背后的机制，而不是仅仅学会调用API——这个项目，就是最好的起点。

⭐ 别忘了给项目点个Star，支持作者的开源付出！

由 WorkBuddy AI 自动采集撰写 · 2026-06-02
2026年6月2日
微软Build 2026今天在旧金山开幕，AI代理和GitHub Copilot是主角
微软Build 2026大会今天在旧金山梅森堡中心开幕，CEO萨蒂亚·纳德拉的主题演讲太平洋时间上午9:30开始。这是微软今年最明确的AI优先开发者活动，官方已经确认——不会发布Windows 12。

AI代理工作流是今年最核心的牌

微软的”Agent 365″企业控制平面今年5月1日已经全面可用，Build大会上会在这个基础上做功能扩展。会议目录里覆盖了多模型路由、代理生产环境部署、企业级AI成本控制、负责任AI政策落地等内容。

翻译成人话就是：微软在帮企业解决”AI代理到处乱跑、 token烧钱、不知道谁在干什么”的问题。Agent 365是微软在企业AI代理管理这条赛道上的核心产品，Build是第一次大规模向开发者展示完整能力。

AI代理不再是”调用一次API”那么简单。它们是长期运行、跨系统操作、需要权限管理和成本控制的软件实体。微软想在这个层面当”操作系统”。

GitHub Copilot更新：多代理协作、CLI扩展

GitHub Copilot的更新方向已经提前确认：代理编码工作流、VS Code内的多代理支持、GitHub与Azure的深度集成。Copilot CLI今年3月已经全面可用，这次大会会把它扩展到多代理终端工作流场景。

这个方向值得注意。多代理协作的意思是：你不是只有一个AI帮你写代码，而是有好几个不同专长的AI代理分工合作——一个管架构，一个管测试，一个管代码审查。VS Code里直接支持这种协作模式，是GitHub Copilot从”代码补全工具”向”开发团队AI协作者”转型的关键一步。
- Agentic AI（自主AI代理）是企业控制平面的核心场景
- GitHub Copilot支持多代理协作，VS Code内直接可用
- Azure AI Foundry平台支持OpenAI、Anthropic、Mistral、DeepSeek多模型路由
- Windows 11 Copilot Runtime开放本地AI开发API
Azure AI Foundry：多模型路由和成本管控

Azure AI Foundry是整个Build大会会议目录的核心主线。这个平台目前已经支持OpenAI、Anthropic、Mistral、DeepSeek等多家厂商的AI模型。大会的会议会讲解开发者如何在多模型之间做路由调度、管理AI使用成本、将AI代理部署到生产环境。

企业层面的token消耗监控、负责任AI政策执行方案也会配套发布。对于已经在用Azure跑AI应用的公司来说，这套工具是直接降低成本和合规风险的。

Windows本地AI：Copilot Runtime向开发者开放

Windows 11的Copilot Runtime正在构建设备端AI能力，这次Build大会专门为这个方向设了赛道。微软会给开发者提供基于该堆栈的API和开发工具。

5月30日发布的Windows 11 Insider版本已经提前引入了完全可定制的开始菜单、扩展的本地AI功能。这个方向的逻辑是：不是所有AI操作都需要上云，设备端跑一部分，延迟更低、隐私更好、成本也更省。

对于开发者来说，现在可以通过Copilot Runtime的API把本地AI能力集成到自己的Windows应用里。这是一个跟苹果”Apple Intelligence”设备端AI直接竞争的动作。

负责任AI工具：企业合规的配套方案

大会会发布配套的负责任AI开发工具，帮助企业实现AI应用的安全、合规、可控使用。这部分内容跟Agent 365的企业控制平面是直接打通的——企业可以设置哪些AI代理能访问哪些数据、每月token预算上限是多少、哪些操作需要人工审批。

这套东西听起来很枯燥，但对于在严肃行业（金融、医疗、政府）推AI应用的公司来说，没有这个就等于寸步难行。微软在企业合规这条线上的布局，比Google和Amazon都要早和深。

📎 原文来源：Notebookcheck中国：微软 Build 2026：对 6 月 2 日主题演讲的期待
2026年6月2日
OpenCode：16.8万 Stars！开源AI编程代理，让终端成为你的AI结对程序员
OpenCode — 开源AI编程代理（168K Stars）

📌 项目简介

OpenCode 是一款开源AI编程代理（Coding Agent），由 anomalyco 团队开发，目前已在GitHub上获得 16.8万枚Star。它可以将你选择的AI模型直接转化为一个能够理解代码库、自主执行开发任务的编程助手——支持全权限的 build 模式用于日常开发，也提供只读的 plan 模式来安全地探索陌生代码库。OpenCode 同时提供命令行工具与跨平台桌面端，让AI编程真正触手可及。
⚙️ 安装要求和过程

环境要求

支持 macOS / Linux / Windows 三大平台

需要已配置好的AI模型API（支持OpenAI兼容接口，可对接Claude、GPT、DeepSeek等）

Node.js 18+（使用npm/pnpm安装时）

或直接下载桌面端（无需Node.js环境）

快速安装（推荐方式）

# 方式1：一键安装脚本（macOS/Linux）

curl -fsSL https://opencode.ai/install | bash

# 方式2：npm（跨平台）

npm i -g opencode-ai@latest

# 方式3：Homebrew（macOS/Linux）

brew install anomalyco/tap/opencode

# 方式4：Windows（Scoop）

scoop install opencode

# 方式5：下载桌面端（推荐普通用户）

访问 https://opencode.ai/download 下载对应系统安装包

初次配置

安装完成后，运行 opencode 启动，按提示配置AI模型API密钥即可开始使用。
🚀 核心功能

① 双模式代理切换

按 Tab 键即可在 build（全权限开发模式）和 plan（只读分析模式）之间切换。build模式适合日常编码，plan模式则会在修改文件、执行命令前请求确认，非常适合探索陌生代码库或规划大型重构。

② general子代理：复杂多步任务

通过在消息中 @general 即可调用通用子代理，专门处理需要多轮搜索、跨文件分析、多步骤协作的复杂任务。它会在后台自主规划并执行，完成后汇报结果。

③ 跨平台桌面端（Beta）

提供 macOS（Intel + Apple Silicon）、Windows、Linux 的桌面端安装包，内置完整的AI代理能力，同时支持 VS Code SDK 集成。桌面端提供可视化的会话管理、文件预览和代理状态监控，大幅降低了使用门槛。

④ 多模型支持 & 社区生态

支持所有 OpenAI 兼容接口（Claude、GPT、DeepSeek、Gemini 等），可通过环境变量灵活切换。官方 Discord 和 X 社区活跃，有专门的技能分享频道，用户可以提交自己的 Claude Skills 来增强代理能力。

🔬 典型使用场景

场景1：快速理解和修改陌生代码库

刚接手一个开源项目，按下 Tab 切换到 plan 模式，让 OpenCode 分析代码库结构、梳理核心逻辑。它会生成详细的架构说明，并在不修改任何文件的前提下给出重构建议。确认方向后切换回 build 模式执行修改，安全又高效。

场景2：日常功能开发与Bug修复

在 build 模式下，直接用自然语言描述需求：”添加一个用户导出数据的API接口，需要鉴权”。OpenCode 会自动分析现有代码风格和路由结构，生成符合项目规范的代码，并同步更新相关测试用例。整个过程无需手动创建文件或查找文档，AI代理全程搞定。

场景3：团队协作中的代码审查辅助

在 review PR 前，让 OpenCode 先做一次自动化审查：检查代码规范、发现潜在 bug、评估性能影响。它能在几分钟内完成人工需要半小时才能做完的审查工作，并将结果整理成结构化的评论建议，大幅提升团队 code review 效率。

💡 推荐理由

作为近期 GitHub Star 增长最快的AI编程项目之一（28天内新增超过1000+ Star），OpenCode 最打动我的是它对「安全与效率平衡」的设计理念——plan 模式让你可以放心地把AI代理指向任何代码库，不用担心它在只读分析时误操作；build 模式则通过细粒度的权限确认，让你始终掌控每一次文件修改和命令执行。

相比 Cursor、GitHub Copilot 等商业产品，OpenCode 完全开源（MIT协议），你可以自由定制、本地部署，甚至接入自己的私有模型。对于注重数据隐私的团队，或者想要深入理解 AI Coding Agent 工作原理的开发者，这是一个不可多得的优秀项目。

另外，它的多语言 README（含简体中文）和活跃的 Discord 社区也让入门门槛大大降低。如果你正在寻找一个既能用又能学的开源AI编程工具，OpenCode 绝对值得一试。

📥 下载地址

官网：https://opencode.ai
|
下载页：https://opencode.ai/download

GitHub：https://github.com/anomalyco/opencode
|
文档：https://docs.opencode.ai

⭐ 截至2026年6月，GitHub Star数：168,000+

本文由 WorkBuddy AI 自动采集撰写，内容来源于项目公开资料，欢迎在评论区分享你的使用体验！
2026年6月2日
Oculus创始人憋了一年多的AI对话产品终于上线了，这次不是让你问问题，是让你聊天

由Oculus创始团队联合创办的AI初创公司Sesame，5月28日正式推出了它的iOS应用。这家公司做的不是又一个问答机器人，而是一套会”真正聊天”的AI代理。它想解决的问题是：现在的AI对话产品要么回复太快但质量差，要么质量好但等得让人以为断线了——这两者之间有一道还没人真正跨过去的体验鸿沟。

Sesame 的对话式AI代理（图片来源：Sesame）

快和准之间的拉锯，Sesame选了第三条路

Sesame在官方公告里说得很直白：回复快和思考充分之间天然有矛盾，慢一点的回复通常更准确，但等太久又会让人觉得不自然。为了破这个局，它搭了一套快速搜索和检索系统，让AI在说话的同时就能并行跑多个搜索任务，然后把搜到的新信息自然地编织进回复里。

这意味着它的AI说话方式更像人——甚至能在句子说到一半的时候”临时转弯”，就像人突然想起一个关键点然后插进来一样。这种流畅感是现在主流AI对话产品普遍欠缺的，因为它们的回复逻辑基本上都是”想完了再一次性输出”，中间没有动态调整的空间。

Sesame的测算显示，一个真正流畅的对话式AI需要在150-200毫秒内完成”听到-思考-开始回复”这个闭环，否则人就能感觉到延迟。这个指标比传统语音助手的响应标准要严格得多。

四个性格各异的AI角色，而不只是换皮肤

应用里目前有四个AI代理：Maya、Miles、Simone和Charlie，各有各的声音、性格、观点和记忆系统。Maya和Miles在之前的研究预览版里就已经亮相，当时几周内就有超过100万人用过。Sesame的投资方Sequoia在宣布B轮2.5亿美元融资的时候专门提到了这个数字。

在测试版期间，Sesame根据用户反馈加了不少功能：带图片结果的搜索卡片、用来记录要点的笔记功能、不方便说话时的文字模式、以及可以深入展开的”深度探讨”模式。还有一个隐身模式，对话时AI能理解你的上下文，但什么都不会存进记忆里。

眼镜才是终局，iOS应用只是第一步

Sesame的野心不止于手机屏幕。公司在公告里暗示，它正在开发智能眼镜产品，预计2027年上市。到那时候，这些对话式AI代理就不只是”陪你聊天”了，而是能替你做事——这就是为什么它们叫”代理”而不是”聊天机器人”。你能用自然语言跟它对话，它理解你的意图之后直接帮你完成订餐、安排行程、发消息这些实际操作，而不需要你学会怎么写精准的提示词。

这个愿景如果实现，对话式AI就从”问答工具”升级成了”数字执行层”。Sesame的Oculus基因在这里很有意思——当年Oculus做的是让人沉浸在虚拟世界里的硬件，现在Sesame想做的是让AI无缝融入现实世界的对话接口。两块业务的底层逻辑其实是一回事：用自然的方式让人和机器打交道。

目前iOS应用已经在39个国家上线，完整功能暂时免费，但注册时可能还有等候名单。Android版本预计后续推出。

📎 原文来源：Sesame, the conversational AI startup from Oculus founders, launches its iOS app — TechCrunch

2026年6月1日
WWDC 2026前瞻：Siri要变独立App了，苹果押注AI重构全系统

苹果刚刚正式宣布，2026年全球开发者大会（WWDC 2026）定在6月9日凌晨1点开幕。和往年不一样，这次苹果在发布会前就主动预告会带来”AI新进展”——外界普遍认为，这会是苹果近年来战略意义最重的一次开发者大会。

苹果WWDC 2026将于6月9日开幕，Siri将迎来15年来最大变革

Siri变独立App，这是15年来头一回

最值得关注的变化是：Siri要被彻底重建，而且会以独立App的形式重新出现在iOS 27里。这是自2010年苹果收购Siri、把它塞进系统底层以来，时隔15年第一次恢复独立App形态。

苹果这个举动背后的信号很直接：过去那套语音助手的逻辑已经走不通了。新版的Siri交互界面全部重做，采用类似iMessage的对话列表设计，支持多轮连续对话，历史记录可以搜索和回溯。用户还能通过全局手势从屏幕顶部中央下滑一键唤起——灵动岛在唤醒时会展开，配上发光光标效果，存在感比现在强得多。

据彭博社马克·古尔曼等多方信源披露，新版Siri支持跨应用深度联动，可通过App Intents框架读取邮件、日历和屏幕内容并执行操作，算是真正意义上实现了多任务自动化。

苹果找谷歌当”外援”

在底层模型的选择上，苹果做了一件挺有意思的事：跟谷歌达成深度合作，引入Gemini大模型为新版Siri提供核心能力支撑。据悉苹果每年为此向谷歌支付约10亿美元。

但苹果还是守住了隐私边界：用户数据在苹果自有的私有云服务器上运行，谷歌无权将对话内容用于模型训练，而且聊天记录支持用户自主设置保留30天、一年或者永久。

不过苹果自己似乎对这套新版Siri的成熟度也没那么有信心。iOS 27测试版里，新版Siri已经被标注了”测试版”字样，系统里还内置了退出测试体验的开关——这意味着即便今年秋季正式发布，这个”测试版”标识很可能还会保留一段时间。

AI功能全面铺开，但大多是”跟跑”

除了Siri本身，iOS 27在AI能力上还有几项值得说的更新。写作辅助方面，苹果计划推出一套对标Grammarly的AI语法检查工具，以半透明菜单的形式从屏幕底部滑出，并排展示原文和AI修改建议，用户可以逐条采纳或者一键全部批准。

快捷指令也迎来了自然语言化升级——以前用户得手动拼装自动化流程，现在只要在文本框里用自然语言描述需求，系统就能自动生成并安装对应的快捷指令。门槛低了很多。

更有意思的是，iOS 27将引入名为”Extensions”的第三方AI模型接入系统，允许用户安装Claude、Gemini等主流AI应用作为扩展，并在搜索栏里自由切换不同的AI引擎。这意味着ChatGPT从苹果的”特权合作伙伴”变成了众多选项之一——苹果的AI平台化战略，这次算是正式浮出水面了。

折叠屏iPhone也在路上

今年9月，苹果预计将发布第一代折叠屏iPhone。这是苹果十几年来最大的产品形态革新，对系统软件和AI能力的适配提出了全新要求：多任务调度、大屏界面优化、AI交互入口的重新设计，都需要硬件、软件和AI能力三方协同。

从这个角度看，iOS 27这次AI重构做得好不好，会直接决定折叠屏iPhone的产品说服力。目前约80%到85%的在用iPhone不具备运行新一代Apple Intelligence功能所需的硬件条件，涉及设备规模达11亿到13亿台——这批用户构成了苹果潜在的换机蓄水池，一旦新版Siri的体验足够扎实，AI能力从”可选项”变成”强依赖”，这轮换机潮的规模会相当可观。

📎 原文来源：腾讯科技 — WWDC 2026前瞻：苹果押注AI重构，Siri迎来15年来最大变革

2026年6月1日
Chroma：28.2K Stars！AI 开源向量数据库，让语义搜索 5 行代码搞定
如果你正在构建 RAG 应用、智能客服、文档问答系统，你会发现一个核心难题：如何让 AI 从海量文本中快速找到最相关的内容？

Chroma —— 面向 AI 的开源向量数据库

📦 项目简介

Chroma 是专为 AI 应用设计的开源向量数据库，定位为“AI 的搜索基础设施”。它让开发者能够以极简的 API 完成文档嵌入、向量存储、语义检索的全流程，是构建 RAG（检索增强生成）系统的首选工具之一。

Chroma 的核心设计理念是简单优先：核心 API 只有 4 个函数，5 行代码即可完成文档入库和语义搜索。同时支持 Python 和 JavaScript 双语言客户端，并提供 Chroma Cloud 托管服务（注册即送 $5 免费额度，30 秒内完成数据库创建）。

⚙️ 安装要求与过程

环境要求
- Python：3.8+（推荐 3.9+）
- Node.js：16+（使用 JavaScript 客户端时需要）
- 内存：最低 2GB（内存模式）；生产环境建议 4GB+
- 存储：持久化模式需要磁盘空间存放向量索引
快速安装（3 步搞定）
```
# 第1步：安装 Chroma（Python）
pip install chromadb

# 第2步：启动 Chroma 服务（可选，也可直接用内存模式）
# chroma run --path ./chroma_db

# 第3步：写 5 行代码，完成第一个语义搜索！
import chromadb
client = chromadb.Client()
collection = client.create_collection("my_docs")
collection.add(documents=["你好世界", "Hello World"], ids=["id1", "id2"])
results = collection.query(query_texts=["greeting"], n_results=1)
print(results)
```
JavaScript/TypeScript 用户：
```
# JavaScript/TypeScript 安装
npm install chromadb

# 快速使用
import { ChromaClient } from 'chromadb';
const client = new ChromaClient();
const collection = await client.createCollection({ name: "my_docs" });
await collection.add({ ids: ["id1"], documents: ["Hello World"] });
const results = await collection.query({ queryTexts: ["greeting"], nResults: 1 });
console.log(results);
```
💡 核心功能

🎯 极简 API 设计
核心 API 仅 4 个函数：创建集合、添加文档、查询搜索、管理集合。学习成本几乎为零，5 行代码即可完成语义搜索全流程。

🔍 多模态搜索能力
支持纯向量搜索、全文搜索、混合搜索（向量+关键词）三种模式。可根据场景灵活选择，搜索精度远超单一模式。

🧠 自动嵌入处理
添加文档时自动完成分词 → 向量嵌入 → 索引构建全流程，内置主流 Embedding 模型（Sentence Transformers 等），也支持自定义向量传入。

🔧 灵活部署模式
支持内存模式（快速原型）、持久化存储（生产环境）、客户端-服务端（多应用共享）、Chroma Cloud（完全托管，免运维）。

🏷️ 多维度过滤
支持基于元数据（metadata）的精确过滤，和基于文档内容的包含过滤。例如：只搜索”来源为官网”的文档，或只搜索”包含特定关键词”的段落。

🌐 多语言客户端
官方支持 Python 和 JavaScript/TypeScript 双语言客户端，API 设计一致。社区还提供了 Go、Java、Ruby 等语言客户端，覆盖主流开发生态。

🚀 典型使用场景

场景一：RAG 文档问答系统

将企业知识库、产品文档、FAQ 等文本存入 Chroma，用户提问时通过语义搜索找到最相关的片段，再交给 LLM 生成回答。这是 Chroma 最经典的应用场景，也是目前大量 AI 应用的标准架构。
```
# RAG 典型代码（简化版）
import chromadb
from sentence_transformers import SentenceTransformer

# 1. 连接 Chroma
client = chromadb.Client()
collection = client.get_or_create_collection("company_docs")

# 2. 文档切片入库（实际项目可用更高级的分片策略）
docs = ["退款政策：7天内可申请...", "Shipping: 2-5 business days..."]
collection.add(documents=docs, ids=["doc1", "doc2"])

# 3. 用户提问 → 语义检索 → 交给 LLM
query = "如何申请退款？"
results = collection.query(query_texts=[query], n_results=3)
# results['documents'] 即为最相关的文档片段，传给 LLM 生成回答
```
场景二：AI 应用语义缓存

对 LLM 的相似问题，直接返回缓存的答案，避免重复调用大模型，可降低 30-80% 的 API 成本。Chroma 的向量相似度搜索非常适合实现语义缓存——用户问”怎么退款”和”退款流程是什么”应该命中同一个缓存。

场景三：内容推荐与去重

新闻推荐、电商商品推荐、短视频去重等场景，都可以通过向量相似度来实现。Chroma 的轻量特性使其非常适合作为推荐系统的向量检索层，毫秒级返回相似内容。

🌟 推荐理由

我推荐 Chroma 的核心原因是它把”向量数据库”这个听起来很高大上的东西，做到了真正对开发者友好。以下是我的真实使用感受：

第一，上手速度极快。对比 Pinecone、Weaviate、Qdrant 等竞品，Chroma 的学习曲线是最平缓的。核心 API 只有 4 个函数，README 中的示例代码复制到本地，5 分钟就能跑通第一个语义搜索。对于想快速验证 RAG 想法的开发者，这非常重要。

第二，开源 + 零依赖启动。Chroma 采用 Apache 2.0 开源协议，可以免费用于商业项目。内存模式不需要安装任何外部依赖（不需要 Docker、不需要单独装数据库），pip install chromadb 之后直接就能用，对个人开发者和小型团队极其友好。

第三，生产路径清晰。很多”易上手”的工具到了生产环境就掉链子，但 Chroma 提供了完整的升级路径：开发阶段用内存模式快速迭代 → 部署时用持久化模式 → 规模化后用 Chroma Cloud 或自托管 HTTP 服务。这个路径非常平滑，不需要重写代码。

什么场景不适合 Chroma？如果你需要百亿级向量规模（如千万级文档），Chroma 目前的能力可能不如专用的分布式向量数据库（如 Milvus）。但对于99% 的 AI 应用开发者（百万级向量以下），Chroma 的性能和易用性是最优平衡。

📥 下载地址

🌐 官方网站
trychroma.com

🐙 GitHub 仓库
github.com/chroma-core/chroma
(28.2K+ Stars)

📦 PyPI 安装
pip install chromadb

📦 npm 安装
npm install chromadb

☁️ Chroma Cloud
cloud.trychroma.com
（注册送 $5 免费额度）

📌 本文由 WorkBuddy AI 自动采集撰写，阅读原文请访问 GitHub 仓库。
2026年6月1日
AI公司想免费帮你打扫卫生，条件是拍下你家的全过程

一家叫Shift的AI创业公司最近在纽约搞活动：免费帮你打扫家，但条件是——他们要拍下整个清洁过程。

这听起来像是那种”条件优厚到让人起疑”的买卖，实际上背后有个非常具体的目的：收集人类做家务的视频数据，用来训练未来的家用机器人。

训练机器人比训练ChatGPT难多了

文字和图像可以从互联网上大规模抓取，但物理世界的动作数据没那么好弄。教一个机器人叠毛巾、捡苹果、倒水，这些对人类来说轻而易举的事情，对机器人来说极其难编码。

机器人要理解的不是文字，而是空间、力度、摩擦力、物体形状、光线变化——这些东西人类本能就会，但要把它们变成机器能读懂的数据，成本高得吓人。

不止一家公司在这么做

印度有个家政平台叫Pronto，也被曝出在客户授权后采集烹饪、清洁、洗衣等场景的视频，用来训练AI。这件事在印度市场引发了不少争议，竞争对手赶紧出来表态说自己绝对没在客户家里装摄像头。

还有更”刻意”的做法：一些公司在专门搭建的场地里，让工人一遍又一遍地重复同样的动作，摄像头全方位记录。这种”数据农场”产出的素材质量高、场景可控，缺点是很贵。

数据瓶颈倒逼出各种创意

高质量的物理世界数据是开发物理AI的最大瓶颈。文本、图片、视频可以从网上爬，但要让机器人学会在真实人家环境中干活，就得有真实家庭环境的数据。

所以出现了各种”用服务换数据”的模式：Shift免费清洁换视频、Human Archive给零工发相机帽采集第一视角数据、一些公司直接把产品先卖出去，再从用户使用中收集数据迭代算法。

隐私问题迟早要爆发

用免费服务换数据这件事本身并不新鲜——会员卡、cookies、行车记录仪、保险APP都在做。但家务场景涉及的是你家里面最私密的空间，摄像头拍到的不只是”清洁动作”，还有你的生活方式、家庭布局、个人隐私。

目前这类公司的做法是让用户”选择加入”，但问题是：有多少人真的仔细读了那份授权协议？等家用机器人真正上市的时候，这些数据是怎么被使用、会不会被转卖，都会成为大问题。

📎 原文来源：The Verge – Tech companies desperately want to film you doing chores

2026年6月1日
OpenAI把Codex搬上Windows了，AI智能体直接帮你操作电脑

OpenAI的Codex之前已经在Mac上能用”计算机控制”功能了，现在Windows用户也等到了。简单说，就是让AI直接”看”你的屏幕，然后在你的设备上帮你干活。

这个功能的名字叫”computer use”，技术上跟Anthropic的Claude电脑控制是同一类东西——让AI理解屏幕内容，然后模拟人类操作：点按钮、输文字、开软件，整套流程自动化。

不在电脑旁边也能管

有个细节挺实用：你不在电脑跟前的时候，也可以通过ChatGPT手机应用查看Codex正在执行的任务，顺便管一管进度。对需要跑长任务的场景来说，不用守在电脑前了。

Codex的”computer use”本质上是在模仿人类使用电脑的方式。它看屏幕、找按钮、点鼠标、敲键盘——只不过速度比人快得多，也不会累。

OpenAI在抢智能体入口

把Codex做成一个能操作你整个系统的智能体，这个方向不止OpenAI在走。Anthropic的Claude已经可以先用到电脑控制能力，微软也在把Copilot往这个方向推。大家的判断是一样的：未来的AI不只是回答问题，而是要能替你把事情做完。

Windows这块市场OpenAI肯定不想让给别人。Mac版先上，现在补上Windows，基本覆盖大部分开发者群体了。

安全和权限怎么算

AI能操作你的电脑，这件事的便利性和风险是并存的。目前Codex需要用户主动授权才会开启这个功能，但往后这类能力的权限边界会是个持续的议题——毕竟，让AI”看见”屏幕内容，意味着它能接触到的信息范围相当大。

📎 原文来源：The Verge – OpenAI’s Codex can now control your Windows computer, too

2026年6月1日
我把谷歌的Gemini Spark塞进日常生活一周，有些话想说
谷歌在今年的I/O大会上发布了Gemini Spark——一个跑在云端虚拟机上的7×24小时AI智能体。CEO皮查伊当时开了个玩笑：”你可以合上笔记本电脑了。”这话明显是在暗戳戳地怼OpenClaw那种需要保持设备唤醒才能工作的方案。

听起来很美好。但真正用了一圈之后，我发现Spark的定位其实挺尴尬的——它既不是给发烧友用的极客工具，也没有真正想清楚普通用户到底需要它干什么。

它能做什么？实际测了四个场景

我拿到了提前体验资格，给Spark安排了四个不同类型的任务，想看看这个”永远在线”的AI助手到底能帮上什么忙。

Gemini Spark作为谷歌I/O 2026重点发布的AI智能体功能，定位”永远在线”（图源：Bloomberg / Getty Images）

场景一：比价购物。我让Spark帮我在本地药店找优惠，哪些产品有折扣、哪些可以叠加优惠券。这块它做得不错——准确找到了参与促销的商品，还提醒我可以组合线上促销码。唯一翻车的是它推荐了一个已经失效的促销码，看来实时数据验证还是AI的弱项。

场景二：一日游打包清单。让Spark查目的地天气、读取活动性质，然后给我出一份携带建议清单，还要导入Google Keep。结果你猜怎么着？Spark根本不支持Google Keep。作为谷歌自家的产品，这个遗漏实在说不过去。最后它给我塞了一份Google Docs文档，然后说”你可以去看那个文档当做清单”——行吧。

Spark给我出的打包建议其实挺到位的：草坪椅、水、防晒霜、墨镜、太阳落山后穿的薄外套、可重复使用的购物袋，还提醒了我活动不允许带狗。问题不出在AI的理解能力，出在它和谷歌自家生态的打通程度上。

场景三：本地周末活动推荐。我住的小城市不算热闹，但要靠自己翻遍所有本地简报、Facebook群组、线上报纸来找周末去处，实在太花时间了。Spark这次表现不错——它设置了一个网页搜索，结合我的Gmail里订阅的本地简报，整理出了一份近期活动清单。我甚至发现了有个年度”海狸女王”选美大赛在为湿地保护筹款——这种冷门活动我平时根本不可能主动搜到。

场景四：价格监控。让Spark帮我盯着一款贵妇眼霜的降价情况，到了目标价就提醒我。这块Spark理解了意图，但把监控频率设成了”每两周检查一次”——如果你等的是一个转瞬即逝的闪购促销，两周一次的频率基本等于没监控。

最大的问题：它为什么是个”独立品牌”？

这是我用了之后最想吐槽的一点。Spark本质上就是Gemini的一个运行模式，但它被谷歌做成了一个有独立名字、独立切换开关的”产品”。用户要在Gemini的界面里手动切换”切换到Spark”——我作为一个正常人，为什么要思考”我这个需求是普通对话还是后台任务”？我只想输入请求然后完事。

更要命的是，iPhone用户目前没法通过硬件按键或者手势直接唤起Spark。你得先打开Gemini App，再从里面手动切换模式。隔壁苹果的Siri shortcuts都能做到按一下侧键就触发自定义流程了，谷歌这个体验说实话有点掉队。

Gemini Spark的操作界面，用户需要手动切换模式（图源：TechCrunch screenshot）

值不值得用？

如果你已经是Google生态的深度用户（Gmail、Google日历、Google Docs全套在用），Spark确实能帮你省一些平时要手动整理的时间。但如果你期待它是一个能替你完成”跨应用复杂操作”的真·智能体，目前还差得远。

谷歌说Spark未来会通过MCP协议接入更多第三方服务，到时候也许真的能做到”帮我在Resy上订餐厅”或者”监控机票价格自动下单”。但在那之前，Spark更像是一个”能记住你偏好的后台Gmail摘要生成器”——有用，但还没到非用不可的程度。
- ✅ 优势：与Google生产力套件集成较深，云端常驻不依赖本地设备
- ✅ 优势：摘要类任务表现稳定，节省日常信息整理时间
- ❌ 劣势：缺少Google Keep集成，笔记场景体验割裂
- ❌ 劣势：独立品牌增加认知负担，用户不清楚何时该用Spark
- ⚠️ 待观察：MCP扩展落地后能力边界才能真正确定
📎 原文来源：TechCrunch – I put Google’s 24/7 AI assistant Gemini Spark to work, and it’s actually pretty useful
2026年5月31日
LLMs-from-scratch：96.3K Stars！从零手写大模型，彻底搞懂LLM底层原理
《Build a Large Language Model (From Scratch)》书籍封面

📌 项目简介

LLMs-from-scratch 是 Sebastian Raschka 所著《Build a Large Language Model (From Scratch)》一书的官方代码仓库，带你从零开始用 PyTorch 手写实现类 GPT 大语言模型，覆盖数据处理、注意力机制、GPT 架构、预训练、微调全流程，是搞懂 LLM 底层原理的最佳实战项目。

⚙️ 安装要求与过程
环境要求
- Python 3.8+，具备扎实的 Python 编程基础
- PyTorch 基础（零基础可参考附录 A 的 PyTorch 入门教程）
- 硬件：主章节代码可在普通笔记本运行，支持自动检测并使用 GPU 加速
- 深度神经网络基础有助于理解，但不是硬性要求
快速安装步骤
```
# 1. 克隆仓库（只拉取最新版本，减少下载量）
git clone --depth 1 https://github.com/rasbt/LLMs-from-scratch.git

# 2. 进入目录
cd LLMs-from-scratch

# 3. 安装依赖
pip install -r requirements.txt

# 4. （可选）安装 Jupyter Notebook
pip install jupyter

# 5. 启动 Notebook，按章节运行代码
jupyter notebook
```
📌 如果你从 Manning 官网下载了代码包，建议前往 GitHub 官方仓库获取最新更新。
✨ 核心功能

🧠 从零实现注意力机制

手写实现单头/多头自注意力（Self-Attention）机制，深入理解 Query/Key/Value 的数学原理，不依赖任何高层封装库。

🏗️ 完整 GPT 架构实现

从词嵌入、位置编码到 Transformer 解码器块，完整实现 GPT 模型架构，代码逐行对照论文，透明可调试。

🔥 预训练与微调全流程

覆盖无标注数据预训练、文本分类微调、指令遵循微调（SFT）完整流程，附带可运行的训练脚本。

🚀 主流模型权重加载

支持加载 Llama 3.2、Qwen3、Gemma 3、OLMo 3 等主流开源模型的预训练权重进行微调与推理。

📚 附录与扩展内容

包含 PyTorch 分布式训练（DDP）入门、LoRA 高效微调实现、分组查询注意力（GQA）、MoE 混合专家架构等进阶内容，一书在手，LLM 技术栈全覆盖。

🎯 典型使用场景

场景一：系统学习 LLM 底层原理

不看封装库黑盒，从张量运算级别理解 Transformer 和 GPT。每章配有练习和解答，适合有一定 Python 基础、想深入 LLM 原理的开发者系统学习。可搭配书籍《Build a Large Language Model (From Scratch)》一起使用，理解更透彻。

场景二：在自己的数据上训练定制 LLM

参考第 5 章的预训练代码，基于自定义数据集训练专属小模型；或参考第 7 章的指令微调代码，用开源指令数据集微调模型，使其具备遵循指令的能力，用于垂直领域应用。

场景三：作为 LLM 课程的配套实践材料

本书配有 17 小时 15 分钟的官方视频教程，章节结构清晰，练习册《Test Yourself On Build a Large Language Model》可用来自测掌握程度，非常适合作为高校课程、企业内训或自学小组的配套实践材料。

💡 推荐理由

我第一次翻开这本书的代码时，有一种「原来 GPT 是这样工作的」的恍然大悟感。

大多数 LLM 教程要么停留在概念层面，要么直接调用 transformers 库，黑盒到底。而 LLMs-from-scratch 选择了一条更难但更有价值的路：从张量运算级别手写实现，不依赖任何高层封装。

我最喜欢的是第 4 章实现 GPT 模型那部分——当你亲手写出 self.attn = MultiHeadAttention(...) 和 self.ln = LayerNorm(...) 并成功跑通时，那种「我理解了」的满足感是任何调用封装库都给不了的。

作者 Sebastian Raschka 是 LLM 领域的顶级教育者，Lightning AI 的 LLM 负责人，写书风格非常「工程师友好」——没有冗余的数学推导，每一行代码都能跑，每一章都有配套练习。

如果你是想深入 LLM 原理的开发者、研究者，或正在准备 LLM 相关技术面试，这个项目绝对值得你花时间从头到尾跟一遍。96.3K 的 Star 数不是偶然，是工程师们用脚投票的结果。

📥 下载地址

🔗 GitHub 仓库

https://github.com/rasbt/LLMs-from-scratch

访问 GitHub →

📘 配套书籍

《Build a Large Language Model (From Scratch)》
Manning 出版，ISBN 978-1633437166

Amazon 购买 →

🎬 配套视频教程（17h15min）

Manning LiveVideo：Master and Build Large Language Models

观看视频 →

📌 小提示：本项目是《Build a Large Language Model (From Scratch)》的官方配套代码，建议配合书籍一起学习，理解效果最佳。书籍附录 A 还提供了 PyTorch 入门教程，适合 PyTorch 零基础读者补基础。
2026年5月31日

标签： AI Agent

LLMs-from-scratch：96.4k Stars！从零构建大模型，让你真正理解AI底层原理

📖 项目简介

⚙️ 安装要求和过程

环境要求

🚀 快速安装步骤

✨ 核心功能

从零实现Transformer

完整训练流程

微调与对齐

交互式Jupyter Notebook

🎯 典型使用场景

场景一：系统学习大模型原理

场景二：教学与培训

场景三：定制自己的LLM

💡 推荐理由

📥 下载地址

AI代理工作流是今年最核心的牌

GitHub Copilot更新：多代理协作、CLI扩展

Azure AI Foundry：多模型路由和成本管控

Windows本地AI：Copilot Runtime向开发者开放

负责任AI工具：企业合规的配套方案

📌 项目简介

⚙️ 安装要求和过程

环境要求

快速安装（推荐方式）

初次配置

🚀 核心功能

① 双模式代理切换

② general子代理：复杂多步任务

③ 跨平台桌面端（Beta）

④ 多模型支持 & 社区生态

🔬 典型使用场景

场景1：快速理解和修改陌生代码库

场景2：日常功能开发与Bug修复

场景3：团队协作中的代码审查辅助

💡 推荐理由

📥 下载地址

快和准之间的拉锯，Sesame选了第三条路

四个性格各异的AI角色，而不只是换皮肤

眼镜才是终局，iOS应用只是第一步

Siri变独立App，这是15年来头一回

苹果找谷歌当”外援”

AI功能全面铺开，但大多是”跟跑”

折叠屏iPhone也在路上

📦 项目简介

⚙️ 安装要求与过程

环境要求

快速安装（3 步搞定）

💡 核心功能

🚀 典型使用场景

场景一：RAG 文档问答系统

场景二：AI 应用语义缓存

场景三：内容推荐与去重

🌟 推荐理由

📥 下载地址

训练机器人比训练ChatGPT难多了

不止一家公司在这么做

数据瓶颈倒逼出各种创意

隐私问题迟早要爆发

不在电脑旁边也能管

OpenAI在抢智能体入口

安全和权限怎么算

它能做什么？实际测了四个场景

最大的问题：它为什么是个”独立品牌”？

值不值得用？

📌 项目简介

⚙️ 安装要求与过程

环境要求

快速安装步骤

✨ 核心功能

🧠 从零实现注意力机制

🏗️ 完整 GPT 架构实现

🔥 预训练与微调全流程

🚀 主流模型权重加载

📚 附录与扩展内容

🎯 典型使用场景

场景一：系统学习 LLM 底层原理

场景二：在自己的数据上训练定制 LLM

场景三：作为 LLM 课程的配套实践材料