标签: AI Agent

  • LLMs-from-scratch:96.4k Stars!从零构建大模型,让你真正理解AI底层原理

    LLMs-from-scratch:96.4k Stars!从零构建大模型,让你真正理解AI底层原理

    📚 GitHub热门AI开源项目 · 第45期

    LLMs-from-scratch:96.4k Stars!从零构建大模型,让你真正理解AI底层原理

    ⭐ Stars: 96.4k+
    📦 开源协议: MIT
    👤 作者: Sebastian Raschka

    LLMs-from-scratch封面图

    项目示意图(来自官方GitHub)


    📖 项目简介

    LLMs-from-scratch 是《Build a Large Language Model From Scratch》一书的官方配套代码库,作者Sebastian Raschka通过从零实现GPT风格的大模型,帮助读者深入理解大模型的工作原理。项目完全基于PyTorch,不依赖高级封装,适合学习AI底层机制。


    ⚙️ 安装要求和过程

    环境要求

    • Python 3.8+
    • PyTorch 2.0+
    • Jupyter Notebook(推荐)
    • GPU(可选,CPU可运行小规模模型)

    🚀 快速安装步骤

    # 克隆仓库
    git clone https://github.com/rasbt/LLMs-from-scratch.git
    cd LLMs-from-scratch
    
    # 创建虚拟环境(推荐)
    python -m venv venv
    source venv/bin/activate  # Linux/Mac
    # venv\Scripts\activate  # Windows
    
    # 安装依赖
    pip install -r requirements.txt
    
    # 启动Jupyter Notebook
    jupyter notebook

    💡 建议按顺序阅读每一章的notebook,从字符级语言模型开始,逐步构建到完整GPT。


    ✨ 核心功能

    🧱

    从零实现Transformer

    不依赖Hugging Face Transformers等高级库,从零实现Attention、Multi-Head Attention、位置编码等核心组件,真正理解Transformer架构。

    📚

    完整训练流程

    覆盖从数据预处理、词表构建、模型训练、损失计算到文本生成的完整流程。提供预训练权重,可直接加载进行推理。

    🔧

    微调与对齐

    包含指令微调(Instruction Tuning)和人类偏好对齐(RLHF简介)的实战代码,教你如何把预训练模型变成可用的对话助手。

    📓

    交互式Jupyter Notebook

    每一章都配有详细的Jupyter Notebook,代码可直接运行,公式和图示并茂,学习体验极佳。适合自学或作为课程教材。


    🎯 典型使用场景

    场景一:系统学习大模型原理

    如果你看过很多大模型科普文章但仍觉得”不透彻”,这个项目就是为你准备的。从字符嵌入到因果注意力,每一步都有清晰代码和图示。

    场景二:教学与培训

    可作为高校《自然语言处理》课程或企业内训的实战教材。学生/学员通过运行代码,直观理解注意力机制和生成过程。

    场景三:定制自己的LLM

    理解原理后,你可以在此基础上修改架构、更换词表、接入自己的数据集进行预训练或微调,真正”掌握”而不是”调用”大模型。


    💡 推荐理由

    我推荐这个项目,是因为它解决了AI学习者最大的痛点:“会用”不等于”理解”

    现在市面上的LLM教程,要么停留在概念层面(”Transformer就是这样”),要么直接调Hugging Face高级API(”三行代码搞定”)。前者看不懂,后者学完仍然不知道模型内部发生了什么。

    Sebastian Raschka的这本书+代码库,走的是中间路线——用最基础的PyTorch操作,一行行实现GPT。你会发现,当你亲手写过Attention矩阵乘法、采样循环、位置编码叠加,那些原本模糊的概念会突然变得清晰。这种”通透感”,是高level API永远给不了的。


    96.4k+
    GitHub Stars

    MIT
    开源协议

    Python
    主要语言

    📓
    Jupyter Notebook



    如果你对AI充满好奇,想弄清楚ChatGPT背后的机制,而不是仅仅学会调用API——这个项目,就是最好的起点。

    ⭐ 别忘了给项目点个Star,支持作者的开源付出!

    由 WorkBuddy AI 自动采集撰写 · 2026-06-02
  • 微软Build 2026今天在旧金山开幕,AI代理和GitHub Copilot是主角

    微软Build 2026大会今天在旧金山梅森堡中心开幕,CEO萨蒂亚·纳德拉的主题演讲太平洋时间上午9:30开始。这是微软今年最明确的AI优先开发者活动,官方已经确认——不会发布Windows 12。

    AI代理工作流是今年最核心的牌

    微软的”Agent 365″企业控制平面今年5月1日已经全面可用,Build大会上会在这个基础上做功能扩展。会议目录里覆盖了多模型路由、代理生产环境部署、企业级AI成本控制、负责任AI政策落地等内容。

    翻译成人话就是:微软在帮企业解决”AI代理到处乱跑、 token烧钱、不知道谁在干什么”的问题。Agent 365是微软在企业AI代理管理这条赛道上的核心产品,Build是第一次大规模向开发者展示完整能力。

    AI代理不再是”调用一次API”那么简单。它们是长期运行、跨系统操作、需要权限管理和成本控制的软件实体。微软想在这个层面当”操作系统”。

    GitHub Copilot更新:多代理协作、CLI扩展

    GitHub Copilot的更新方向已经提前确认:代理编码工作流、VS Code内的多代理支持、GitHub与Azure的深度集成。Copilot CLI今年3月已经全面可用,这次大会会把它扩展到多代理终端工作流场景。

    这个方向值得注意。多代理协作的意思是:你不是只有一个AI帮你写代码,而是有好几个不同专长的AI代理分工合作——一个管架构,一个管测试,一个管代码审查。VS Code里直接支持这种协作模式,是GitHub Copilot从”代码补全工具”向”开发团队AI协作者”转型的关键一步。

    • Agentic AI(自主AI代理)是企业控制平面的核心场景
    • GitHub Copilot支持多代理协作,VS Code内直接可用
    • Azure AI Foundry平台支持OpenAI、Anthropic、Mistral、DeepSeek多模型路由
    • Windows 11 Copilot Runtime开放本地AI开发API

    Azure AI Foundry:多模型路由和成本管控

    Azure AI Foundry是整个Build大会会议目录的核心主线。这个平台目前已经支持OpenAI、Anthropic、Mistral、DeepSeek等多家厂商的AI模型。大会的会议会讲解开发者如何在多模型之间做路由调度、管理AI使用成本、将AI代理部署到生产环境。

    企业层面的token消耗监控、负责任AI政策执行方案也会配套发布。对于已经在用Azure跑AI应用的公司来说,这套工具是直接降低成本和合规风险的。

    Windows本地AI:Copilot Runtime向开发者开放

    Windows 11的Copilot Runtime正在构建设备端AI能力,这次Build大会专门为这个方向设了赛道。微软会给开发者提供基于该堆栈的API和开发工具。

    5月30日发布的Windows 11 Insider版本已经提前引入了完全可定制的开始菜单、扩展的本地AI功能。这个方向的逻辑是:不是所有AI操作都需要上云,设备端跑一部分,延迟更低、隐私更好、成本也更省。

    对于开发者来说,现在可以通过Copilot Runtime的API把本地AI能力集成到自己的Windows应用里。这是一个跟苹果”Apple Intelligence”设备端AI直接竞争的动作。


    负责任AI工具:企业合规的配套方案

    大会会发布配套的负责任AI开发工具,帮助企业实现AI应用的安全、合规、可控使用。这部分内容跟Agent 365的企业控制平面是直接打通的——企业可以设置哪些AI代理能访问哪些数据、每月token预算上限是多少、哪些操作需要人工审批。

    这套东西听起来很枯燥,但对于在严肃行业(金融、医疗、政府)推AI应用的公司来说,没有这个就等于寸步难行。微软在企业合规这条线上的布局,比Google和Amazon都要早和深。

  • OpenCode:16.8万 Stars!开源AI编程代理,让终端成为你的AI结对程序员

    OpenCode:16.8万 Stars!开源AI编程代理,让终端成为你的AI结对程序员

    OpenCode 特色图
    OpenCode — 开源AI编程代理(168K Stars)

    📌 项目简介

    OpenCode 是一款开源AI编程代理(Coding Agent),由 anomalyco 团队开发,目前已在GitHub上获得 16.8万枚Star。它可以将你选择的AI模型直接转化为一个能够理解代码库、自主执行开发任务的编程助手——支持全权限的 build 模式用于日常开发,也提供只读的 plan 模式来安全地探索陌生代码库。OpenCode 同时提供命令行工具与跨平台桌面端,让AI编程真正触手可及。

    ⚙️ 安装要求和过程

    环境要求

    • 支持 macOS / Linux / Windows 三大平台
    • 需要已配置好的AI模型API(支持OpenAI兼容接口,可对接Claude、GPT、DeepSeek等)
    • Node.js 18+(使用npm/pnpm安装时)
    • 或直接下载桌面端(无需Node.js环境)

    快速安装(推荐方式)

    # 方式1:一键安装脚本(macOS/Linux)

    curl -fsSL https://opencode.ai/install | bash

    # 方式2:npm(跨平台)

    npm i -g opencode-ai@latest

    # 方式3:Homebrew(macOS/Linux)

    brew install anomalyco/tap/opencode

    # 方式4:Windows(Scoop)

    scoop install opencode

    # 方式5:下载桌面端(推荐普通用户)

    访问 https://opencode.ai/download 下载对应系统安装包

    初次配置

    安装完成后,运行 opencode 启动,按提示配置AI模型API密钥即可开始使用。

    🚀 核心功能

    ① 双模式代理切换

    Tab 键即可在 build(全权限开发模式)和 plan(只读分析模式)之间切换。build模式适合日常编码,plan模式则会在修改文件、执行命令前请求确认,非常适合探索陌生代码库或规划大型重构。

    ② general子代理:复杂多步任务

    通过在消息中 @general 即可调用通用子代理,专门处理需要多轮搜索、跨文件分析、多步骤协作的复杂任务。它会在后台自主规划并执行,完成后汇报结果。

    ③ 跨平台桌面端(Beta)

    提供 macOS(Intel + Apple Silicon)、Windows、Linux 的桌面端安装包,内置完整的AI代理能力,同时支持 VS Code SDK 集成。桌面端提供可视化的会话管理、文件预览和代理状态监控,大幅降低了使用门槛。

    ④ 多模型支持 & 社区生态

    支持所有 OpenAI 兼容接口(Claude、GPT、DeepSeek、Gemini 等),可通过环境变量灵活切换。官方 Discord 和 X 社区活跃,有专门的技能分享频道,用户可以提交自己的 Claude Skills 来增强代理能力。

    🔬 典型使用场景

    场景1:快速理解和修改陌生代码库

    刚接手一个开源项目,按下 Tab 切换到 plan 模式,让 OpenCode 分析代码库结构、梳理核心逻辑。它会生成详细的架构说明,并在不修改任何文件的前提下给出重构建议。确认方向后切换回 build 模式执行修改,安全又高效。

    场景2:日常功能开发与Bug修复

    在 build 模式下,直接用自然语言描述需求:”添加一个用户导出数据的API接口,需要鉴权”。OpenCode 会自动分析现有代码风格和路由结构,生成符合项目规范的代码,并同步更新相关测试用例。整个过程无需手动创建文件或查找文档,AI代理全程搞定。

    场景3:团队协作中的代码审查辅助

    在 review PR 前,让 OpenCode 先做一次自动化审查:检查代码规范、发现潜在 bug、评估性能影响。它能在几分钟内完成人工需要半小时才能做完的审查工作,并将结果整理成结构化的评论建议,大幅提升团队 code review 效率。

    💡 推荐理由

    作为近期 GitHub Star 增长最快的AI编程项目之一(28天内新增超过1000+ Star),OpenCode 最打动我的是它对「安全与效率平衡」的设计理念——plan 模式让你可以放心地把AI代理指向任何代码库,不用担心它在只读分析时误操作;build 模式则通过细粒度的权限确认,让你始终掌控每一次文件修改和命令执行。

    相比 Cursor、GitHub Copilot 等商业产品,OpenCode 完全开源(MIT协议),你可以自由定制、本地部署,甚至接入自己的私有模型。对于注重数据隐私的团队,或者想要深入理解 AI Coding Agent 工作原理的开发者,这是一个不可多得的优秀项目。

    另外,它的多语言 README(含简体中文)和活跃的 Discord 社区也让入门门槛大大降低。如果你正在寻找一个既能用又能学的开源AI编程工具,OpenCode 绝对值得一试。

    📥 下载地址

    官网:https://opencode.ai
    |
    下载页:https://opencode.ai/download

    GitHub:https://github.com/anomalyco/opencode
    |
    文档:https://docs.opencode.ai

    ⭐ 截至2026年6月,GitHub Star数:168,000+

    本文由 WorkBuddy AI 自动采集撰写,内容来源于项目公开资料,欢迎在评论区分享你的使用体验!

  • Oculus创始人憋了一年多的AI对话产品终于上线了,这次不是让你问问题,是让你聊天

    由Oculus创始团队联合创办的AI初创公司Sesame,5月28日正式推出了它的iOS应用。这家公司做的不是又一个问答机器人,而是一套会”真正聊天”的AI代理。它想解决的问题是:现在的AI对话产品要么回复太快但质量差,要么质量好但等得让人以为断线了——这两者之间有一道还没人真正跨过去的体验鸿沟。

    Sesame AI对话代理
    Sesame 的对话式AI代理(图片来源:Sesame)

    快和准之间的拉锯,Sesame选了第三条路

    Sesame在官方公告里说得很直白:回复快和思考充分之间天然有矛盾,慢一点的回复通常更准确,但等太久又会让人觉得不自然。为了破这个局,它搭了一套快速搜索和检索系统,让AI在说话的同时就能并行跑多个搜索任务,然后把搜到的新信息自然地编织进回复里。

    这意味着它的AI说话方式更像人——甚至能在句子说到一半的时候”临时转弯”,就像人突然想起一个关键点然后插进来一样。这种流畅感是现在主流AI对话产品普遍欠缺的,因为它们的回复逻辑基本上都是”想完了再一次性输出”,中间没有动态调整的空间。

    Sesame的测算显示,一个真正流畅的对话式AI需要在150-200毫秒内完成”听到-思考-开始回复”这个闭环,否则人就能感觉到延迟。这个指标比传统语音助手的响应标准要严格得多。

    四个性格各异的AI角色,而不只是换皮肤

    应用里目前有四个AI代理:Maya、Miles、Simone和Charlie,各有各的声音、性格、观点和记忆系统。Maya和Miles在之前的研究预览版里就已经亮相,当时几周内就有超过100万人用过。Sesame的投资方Sequoia在宣布B轮2.5亿美元融资的时候专门提到了这个数字。

    在测试版期间,Sesame根据用户反馈加了不少功能:带图片结果的搜索卡片、用来记录要点的笔记功能、不方便说话时的文字模式、以及可以深入展开的”深度探讨”模式。还有一个隐身模式,对话时AI能理解你的上下文,但什么都不会存进记忆里。


    眼镜才是终局,iOS应用只是第一步

    Sesame的野心不止于手机屏幕。公司在公告里暗示,它正在开发智能眼镜产品,预计2027年上市。到那时候,这些对话式AI代理就不只是”陪你聊天”了,而是能替你做事——这就是为什么它们叫”代理”而不是”聊天机器人”。你能用自然语言跟它对话,它理解你的意图之后直接帮你完成订餐、安排行程、发消息这些实际操作,而不需要你学会怎么写精准的提示词。

    这个愿景如果实现,对话式AI就从”问答工具”升级成了”数字执行层”。Sesame的Oculus基因在这里很有意思——当年Oculus做的是让人沉浸在虚拟世界里的硬件,现在Sesame想做的是让AI无缝融入现实世界的对话接口。两块业务的底层逻辑其实是一回事:用自然的方式让人和机器打交道。

    目前iOS应用已经在39个国家上线,完整功能暂时免费,但注册时可能还有等候名单。Android版本预计后续推出。

  • WWDC 2026前瞻:Siri要变独立App了,苹果押注AI重构全系统

    苹果刚刚正式宣布,2026年全球开发者大会(WWDC 2026)定在6月9日凌晨1点开幕。和往年不一样,这次苹果在发布会前就主动预告会带来”AI新进展”——外界普遍认为,这会是苹果近年来战略意义最重的一次开发者大会。

    Apple WWDC 2026前瞻
    苹果WWDC 2026将于6月9日开幕,Siri将迎来15年来最大变革

    Siri变独立App,这是15年来头一回

    最值得关注的变化是:Siri要被彻底重建,而且会以独立App的形式重新出现在iOS 27里。这是自2010年苹果收购Siri、把它塞进系统底层以来,时隔15年第一次恢复独立App形态。

    苹果这个举动背后的信号很直接:过去那套语音助手的逻辑已经走不通了。新版的Siri交互界面全部重做,采用类似iMessage的对话列表设计,支持多轮连续对话,历史记录可以搜索和回溯。用户还能通过全局手势从屏幕顶部中央下滑一键唤起——灵动岛在唤醒时会展开,配上发光光标效果,存在感比现在强得多。

    据彭博社马克·古尔曼等多方信源披露,新版Siri支持跨应用深度联动,可通过App Intents框架读取邮件、日历和屏幕内容并执行操作,算是真正意义上实现了多任务自动化。

    苹果找谷歌当”外援”

    在底层模型的选择上,苹果做了一件挺有意思的事:跟谷歌达成深度合作,引入Gemini大模型为新版Siri提供核心能力支撑。据悉苹果每年为此向谷歌支付约10亿美元。

    但苹果还是守住了隐私边界:用户数据在苹果自有的私有云服务器上运行,谷歌无权将对话内容用于模型训练,而且聊天记录支持用户自主设置保留30天、一年或者永久。

    不过苹果自己似乎对这套新版Siri的成熟度也没那么有信心。iOS 27测试版里,新版Siri已经被标注了”测试版”字样,系统里还内置了退出测试体验的开关——这意味着即便今年秋季正式发布,这个”测试版”标识很可能还会保留一段时间。

    AI功能全面铺开,但大多是”跟跑”

    除了Siri本身,iOS 27在AI能力上还有几项值得说的更新。写作辅助方面,苹果计划推出一套对标Grammarly的AI语法检查工具,以半透明菜单的形式从屏幕底部滑出,并排展示原文和AI修改建议,用户可以逐条采纳或者一键全部批准。

    快捷指令也迎来了自然语言化升级——以前用户得手动拼装自动化流程,现在只要在文本框里用自然语言描述需求,系统就能自动生成并安装对应的快捷指令。门槛低了很多。

    更有意思的是,iOS 27将引入名为”Extensions”的第三方AI模型接入系统,允许用户安装Claude、Gemini等主流AI应用作为扩展,并在搜索栏里自由切换不同的AI引擎。这意味着ChatGPT从苹果的”特权合作伙伴”变成了众多选项之一——苹果的AI平台化战略,这次算是正式浮出水面了。


    折叠屏iPhone也在路上

    今年9月,苹果预计将发布第一代折叠屏iPhone。这是苹果十几年来最大的产品形态革新,对系统软件和AI能力的适配提出了全新要求:多任务调度、大屏界面优化、AI交互入口的重新设计,都需要硬件、软件和AI能力三方协同。

    从这个角度看,iOS 27这次AI重构做得好不好,会直接决定折叠屏iPhone的产品说服力。目前约80%到85%的在用iPhone不具备运行新一代Apple Intelligence功能所需的硬件条件,涉及设备规模达11亿到13亿台——这批用户构成了苹果潜在的换机蓄水池,一旦新版Siri的体验足够扎实,AI能力从”可选项”变成”强依赖”,这轮换机潮的规模会相当可观。

  • Chroma:28.2K Stars!AI 开源向量数据库,让语义搜索 5 行代码搞定

    Chroma:28.2K Stars!AI 开源向量数据库,让语义搜索 5 行代码搞定

    如果你正在构建 RAG 应用、智能客服、文档问答系统,你会发现一个核心难题:如何让 AI 从海量文本中快速找到最相关的内容?

    Chroma 向量数据库
    Chroma —— 面向 AI 的开源向量数据库

    📦 项目简介

    Chroma 是专为 AI 应用设计的开源向量数据库,定位为“AI 的搜索基础设施”。它让开发者能够以极简的 API 完成文档嵌入、向量存储、语义检索的全流程,是构建 RAG(检索增强生成)系统的首选工具之一。

    Chroma 的核心设计理念是简单优先:核心 API 只有 4 个函数,5 行代码即可完成文档入库和语义搜索。同时支持 Python 和 JavaScript 双语言客户端,并提供 Chroma Cloud 托管服务(注册即送 $5 免费额度,30 秒内完成数据库创建)。

    ⚙️ 安装要求与过程

    环境要求

    • Python:3.8+(推荐 3.9+)
    • Node.js:16+(使用 JavaScript 客户端时需要)
    • 内存:最低 2GB(内存模式);生产环境建议 4GB+
    • 存储:持久化模式需要磁盘空间存放向量索引

    快速安装(3 步搞定)

    # 第1步:安装 Chroma(Python)
    pip install chromadb
    
    # 第2步:启动 Chroma 服务(可选,也可直接用内存模式)
    # chroma run --path ./chroma_db
    
    # 第3步:写 5 行代码,完成第一个语义搜索!
    import chromadb
    client = chromadb.Client()
    collection = client.create_collection("my_docs")
    collection.add(documents=["你好世界", "Hello World"], ids=["id1", "id2"])
    results = collection.query(query_texts=["greeting"], n_results=1)
    print(results)

    JavaScript/TypeScript 用户:

    # JavaScript/TypeScript 安装
    npm install chromadb
    
    # 快速使用
    import { ChromaClient } from 'chromadb';
    const client = new ChromaClient();
    const collection = await client.createCollection({ name: "my_docs" });
    await collection.add({ ids: ["id1"], documents: ["Hello World"] });
    const results = await collection.query({ queryTexts: ["greeting"], nResults: 1 });
    console.log(results);

    💡 核心功能

    🎯 极简 API 设计
    核心 API 仅 4 个函数:创建集合、添加文档、查询搜索、管理集合。学习成本几乎为零,5 行代码即可完成语义搜索全流程。

    🔍 多模态搜索能力
    支持纯向量搜索、全文搜索、混合搜索(向量+关键词)三种模式。可根据场景灵活选择,搜索精度远超单一模式。

    🧠 自动嵌入处理
    添加文档时自动完成分词 → 向量嵌入 → 索引构建全流程,内置主流 Embedding 模型(Sentence Transformers 等),也支持自定义向量传入。

    🔧 灵活部署模式
    支持内存模式(快速原型)、持久化存储(生产环境)、客户端-服务端(多应用共享)、Chroma Cloud(完全托管,免运维)。

    🏷️ 多维度过滤
    支持基于元数据(metadata)的精确过滤,和基于文档内容的包含过滤。例如:只搜索”来源为官网”的文档,或只搜索”包含特定关键词”的段落。

    🌐 多语言客户端
    官方支持 Python 和 JavaScript/TypeScript 双语言客户端,API 设计一致。社区还提供了 Go、Java、Ruby 等语言客户端,覆盖主流开发生态。

    🚀 典型使用场景

    场景一:RAG 文档问答系统

    将企业知识库、产品文档、FAQ 等文本存入 Chroma,用户提问时通过语义搜索找到最相关的片段,再交给 LLM 生成回答。这是 Chroma 最经典的应用场景,也是目前大量 AI 应用的标准架构。

    # RAG 典型代码(简化版)
    import chromadb
    from sentence_transformers import SentenceTransformer
    
    # 1. 连接 Chroma
    client = chromadb.Client()
    collection = client.get_or_create_collection("company_docs")
    
    # 2. 文档切片入库(实际项目可用更高级的分片策略)
    docs = ["退款政策:7天内可申请...", "Shipping: 2-5 business days..."]
    collection.add(documents=docs, ids=["doc1", "doc2"])
    
    # 3. 用户提问 → 语义检索 → 交给 LLM
    query = "如何申请退款?"
    results = collection.query(query_texts=[query], n_results=3)
    # results['documents'] 即为最相关的文档片段,传给 LLM 生成回答

    场景二:AI 应用语义缓存

    对 LLM 的相似问题,直接返回缓存的答案,避免重复调用大模型,可降低 30-80% 的 API 成本。Chroma 的向量相似度搜索非常适合实现语义缓存——用户问”怎么退款”和”退款流程是什么”应该命中同一个缓存。

    场景三:内容推荐与去重

    新闻推荐、电商商品推荐、短视频去重等场景,都可以通过向量相似度来实现。Chroma 的轻量特性使其非常适合作为推荐系统的向量检索层,毫秒级返回相似内容。

    🌟 推荐理由

    我推荐 Chroma 的核心原因是它把”向量数据库”这个听起来很高大上的东西,做到了真正对开发者友好。以下是我的真实使用感受:

    第一,上手速度极快。对比 Pinecone、Weaviate、Qdrant 等竞品,Chroma 的学习曲线是最平缓的。核心 API 只有 4 个函数,README 中的示例代码复制到本地,5 分钟就能跑通第一个语义搜索。对于想快速验证 RAG 想法的开发者,这非常重要。

    第二,开源 + 零依赖启动。Chroma 采用 Apache 2.0 开源协议,可以免费用于商业项目。内存模式不需要安装任何外部依赖(不需要 Docker、不需要单独装数据库),pip install chromadb 之后直接就能用,对个人开发者和小型团队极其友好。

    第三,生产路径清晰。很多”易上手”的工具到了生产环境就掉链子,但 Chroma 提供了完整的升级路径:开发阶段用内存模式快速迭代 → 部署时用持久化模式 → 规模化后用 Chroma Cloud 或自托管 HTTP 服务。这个路径非常平滑,不需要重写代码。

    什么场景不适合 Chroma?如果你需要百亿级向量规模(如千万级文档),Chroma 目前的能力可能不如专用的分布式向量数据库(如 Milvus)。但对于99% 的 AI 应用开发者(百万级向量以下),Chroma 的性能和易用性是最优平衡。

    📥 下载地址

    🌐 官方网站
    trychroma.com

    🐙 GitHub 仓库
    github.com/chroma-core/chroma
    (28.2K+ Stars)

    📦 PyPI 安装
    pip install chromadb

    📦 npm 安装
    npm install chromadb

    ☁️ Chroma Cloud
    cloud.trychroma.com
    (注册送 $5 免费额度)

    📌 本文由 WorkBuddy AI 自动采集撰写,阅读原文请访问 GitHub 仓库。

  • AI公司想免费帮你打扫卫生,条件是拍下你家的全过程

    一家叫Shift的AI创业公司最近在纽约搞活动:免费帮你打扫家,但条件是——他们要拍下整个清洁过程。

    这听起来像是那种”条件优厚到让人起疑”的买卖,实际上背后有个非常具体的目的:收集人类做家务的视频数据,用来训练未来的家用机器人。

    训练机器人比训练ChatGPT难多了

    文字和图像可以从互联网上大规模抓取,但物理世界的动作数据没那么好弄。教一个机器人叠毛巾、捡苹果、倒水,这些对人类来说轻而易举的事情,对机器人来说极其难编码。

    机器人要理解的不是文字,而是空间、力度、摩擦力、物体形状、光线变化——这些东西人类本能就会,但要把它们变成机器能读懂的数据,成本高得吓人。

    不止一家公司在这么做

    印度有个家政平台叫Pronto,也被曝出在客户授权后采集烹饪、清洁、洗衣等场景的视频,用来训练AI。这件事在印度市场引发了不少争议,竞争对手赶紧出来表态说自己绝对没在客户家里装摄像头。

    还有更”刻意”的做法:一些公司在专门搭建的场地里,让工人一遍又一遍地重复同样的动作,摄像头全方位记录。这种”数据农场”产出的素材质量高、场景可控,缺点是很贵。


    数据瓶颈倒逼出各种创意

    高质量的物理世界数据是开发物理AI的最大瓶颈。文本、图片、视频可以从网上爬,但要让机器人学会在真实人家环境中干活,就得有真实家庭环境的数据。

    所以出现了各种”用服务换数据”的模式:Shift免费清洁换视频、Human Archive给零工发相机帽采集第一视角数据、一些公司直接把产品先卖出去,再从用户使用中收集数据迭代算法。

    隐私问题迟早要爆发

    用免费服务换数据这件事本身并不新鲜——会员卡、cookies、行车记录仪、保险APP都在做。但家务场景涉及的是你家里面最私密的空间,摄像头拍到的不只是”清洁动作”,还有你的生活方式、家庭布局、个人隐私。

    目前这类公司的做法是让用户”选择加入”,但问题是:有多少人真的仔细读了那份授权协议?等家用机器人真正上市的时候,这些数据是怎么被使用、会不会被转卖,都会成为大问题。

  • OpenAI把Codex搬上Windows了,AI智能体直接帮你操作电脑

    OpenAI的Codex之前已经在Mac上能用”计算机控制”功能了,现在Windows用户也等到了。简单说,就是让AI直接”看”你的屏幕,然后在你的设备上帮你干活。

    这个功能的名字叫”computer use”,技术上跟Anthropic的Claude电脑控制是同一类东西——让AI理解屏幕内容,然后模拟人类操作:点按钮、输文字、开软件,整套流程自动化。

    不在电脑旁边也能管

    有个细节挺实用:你不在电脑跟前的时候,也可以通过ChatGPT手机应用查看Codex正在执行的任务,顺便管一管进度。对需要跑长任务的场景来说,不用守在电脑前了。

    Codex的”computer use”本质上是在模仿人类使用电脑的方式。它看屏幕、找按钮、点鼠标、敲键盘——只不过速度比人快得多,也不会累。

    OpenAI在抢智能体入口

    把Codex做成一个能操作你整个系统的智能体,这个方向不止OpenAI在走。Anthropic的Claude已经可以先用到电脑控制能力,微软也在把Copilot往这个方向推。大家的判断是一样的:未来的AI不只是回答问题,而是要能替你把事情做完。

    Windows这块市场OpenAI肯定不想让给别人。Mac版先上,现在补上Windows,基本覆盖大部分开发者群体了。


    安全和权限怎么算

    AI能操作你的电脑,这件事的便利性和风险是并存的。目前Codex需要用户主动授权才会开启这个功能,但往后这类能力的权限边界会是个持续的议题——毕竟,让AI”看见”屏幕内容,意味着它能接触到的信息范围相当大。

  • 我把谷歌的Gemini Spark塞进日常生活一周,有些话想说

    谷歌在今年的I/O大会上发布了Gemini Spark——一个跑在云端虚拟机上的7×24小时AI智能体。CEO皮查伊当时开了个玩笑:”你可以合上笔记本电脑了。”这话明显是在暗戳戳地怼OpenClaw那种需要保持设备唤醒才能工作的方案。

    听起来很美好。但真正用了一圈之后,我发现Spark的定位其实挺尴尬的——它既不是给发烧友用的极客工具,也没有真正想清楚普通用户到底需要它干什么。

    它能做什么?实际测了四个场景

    我拿到了提前体验资格,给Spark安排了四个不同类型的任务,想看看这个”永远在线”的AI助手到底能帮上什么忙。

    Gemini Spark概念图
    Gemini Spark作为谷歌I/O 2026重点发布的AI智能体功能,定位”永远在线”(图源:Bloomberg / Getty Images)

    场景一:比价购物。我让Spark帮我在本地药店找优惠,哪些产品有折扣、哪些可以叠加优惠券。这块它做得不错——准确找到了参与促销的商品,还提醒我可以组合线上促销码。唯一翻车的是它推荐了一个已经失效的促销码,看来实时数据验证还是AI的弱项。

    场景二:一日游打包清单。让Spark查目的地天气、读取活动性质,然后给我出一份携带建议清单,还要导入Google Keep。结果你猜怎么着?Spark根本不支持Google Keep。作为谷歌自家的产品,这个遗漏实在说不过去。最后它给我塞了一份Google Docs文档,然后说”你可以去看那个文档当做清单”——行吧。

    Spark给我出的打包建议其实挺到位的:草坪椅、水、防晒霜、墨镜、太阳落山后穿的薄外套、可重复使用的购物袋,还提醒了我活动不允许带狗。问题不出在AI的理解能力,出在它和谷歌自家生态的打通程度上。

    场景三:本地周末活动推荐。我住的小城市不算热闹,但要靠自己翻遍所有本地简报、Facebook群组、线上报纸来找周末去处,实在太花时间了。Spark这次表现不错——它设置了一个网页搜索,结合我的Gmail里订阅的本地简报,整理出了一份近期活动清单。我甚至发现了有个年度”海狸女王”选美大赛在为湿地保护筹款——这种冷门活动我平时根本不可能主动搜到。

    场景四:价格监控。让Spark帮我盯着一款贵妇眼霜的降价情况,到了目标价就提醒我。这块Spark理解了意图,但把监控频率设成了”每两周检查一次”——如果你等的是一个转瞬即逝的闪购促销,两周一次的频率基本等于没监控。


    最大的问题:它为什么是个”独立品牌”?

    这是我用了之后最想吐槽的一点。Spark本质上就是Gemini的一个运行模式,但它被谷歌做成了一个有独立名字、独立切换开关的”产品”。用户要在Gemini的界面里手动切换”切换到Spark”——我作为一个正常人,为什么要思考”我这个需求是普通对话还是后台任务”?我只想输入请求然后完事。

    更要命的是,iPhone用户目前没法通过硬件按键或者手势直接唤起Spark。你得先打开Gemini App,再从里面手动切换模式。隔壁苹果的Siri shortcuts都能做到按一下侧键就触发自定义流程了,谷歌这个体验说实话有点掉队。

    Gemini Spark界面截图
    Gemini Spark的操作界面,用户需要手动切换模式(图源:TechCrunch screenshot)

    值不值得用?

    如果你已经是Google生态的深度用户(Gmail、Google日历、Google Docs全套在用),Spark确实能帮你省一些平时要手动整理的时间。但如果你期待它是一个能替你完成”跨应用复杂操作”的真·智能体,目前还差得远。

    谷歌说Spark未来会通过MCP协议接入更多第三方服务,到时候也许真的能做到”帮我在Resy上订餐厅”或者”监控机票价格自动下单”。但在那之前,Spark更像是一个”能记住你偏好的后台Gmail摘要生成器”——有用,但还没到非用不可的程度。

    • ✅ 优势:与Google生产力套件集成较深,云端常驻不依赖本地设备
    • ✅ 优势:摘要类任务表现稳定,节省日常信息整理时间
    • ❌ 劣势:缺少Google Keep集成,笔记场景体验割裂
    • ❌ 劣势:独立品牌增加认知负担,用户不清楚何时该用Spark
    • ⚠️ 待观察:MCP扩展落地后能力边界才能真正确定
  • LLMs-from-scratch:96.3K Stars!从零手写大模型,彻底搞懂LLM底层原理

    LLMs-from-scratch:96.3K Stars!从零手写大模型,彻底搞懂LLM底层原理

    LLMs-from-scratch 封面

    《Build a Large Language Model (From Scratch)》书籍封面


    📌 项目简介

    LLMs-from-scratch 是 Sebastian Raschka 所著《Build a Large Language Model (From Scratch)》一书的官方代码仓库,带你从零开始用 PyTorch 手写实现类 GPT 大语言模型,覆盖数据处理、注意力机制、GPT 架构、预训练、微调全流程,是搞懂 LLM 底层原理的最佳实战项目。


    ⚙️ 安装要求与过程

    环境要求

    • Python 3.8+,具备扎实的 Python 编程基础
    • PyTorch 基础(零基础可参考附录 A 的 PyTorch 入门教程)
    • 硬件:主章节代码可在普通笔记本运行,支持自动检测并使用 GPU 加速
    • 深度神经网络基础有助于理解,但不是硬性要求

    快速安装步骤

    # 1. 克隆仓库(只拉取最新版本,减少下载量)
    git clone --depth 1 https://github.com/rasbt/LLMs-from-scratch.git
    
    # 2. 进入目录
    cd LLMs-from-scratch
    
    # 3. 安装依赖
    pip install -r requirements.txt
    
    # 4. (可选)安装 Jupyter Notebook
    pip install jupyter
    
    # 5. 启动 Notebook,按章节运行代码
    jupyter notebook

    📌 如果你从 Manning 官网下载了代码包,建议前往 GitHub 官方仓库获取最新更新。


    ✨ 核心功能

    🧠 从零实现注意力机制

    手写实现单头/多头自注意力(Self-Attention)机制,深入理解 Query/Key/Value 的数学原理,不依赖任何高层封装库。

    🏗️ 完整 GPT 架构实现

    从词嵌入、位置编码到 Transformer 解码器块,完整实现 GPT 模型架构,代码逐行对照论文,透明可调试。

    🔥 预训练与微调全流程

    覆盖无标注数据预训练、文本分类微调、指令遵循微调(SFT)完整流程,附带可运行的训练脚本。

    🚀 主流模型权重加载

    支持加载 Llama 3.2、Qwen3、Gemma 3、OLMo 3 等主流开源模型的预训练权重进行微调与推理。

    📚 附录与扩展内容

    包含 PyTorch 分布式训练(DDP)入门、LoRA 高效微调实现、分组查询注意力(GQA)、MoE 混合专家架构等进阶内容,一书在手,LLM 技术栈全覆盖。


    🎯 典型使用场景

    场景一:系统学习 LLM 底层原理

    不看封装库黑盒,从张量运算级别理解 Transformer 和 GPT。每章配有练习和解答,适合有一定 Python 基础、想深入 LLM 原理的开发者系统学习。可搭配书籍《Build a Large Language Model (From Scratch)》一起使用,理解更透彻。

    场景二:在自己的数据上训练定制 LLM

    参考第 5 章的预训练代码,基于自定义数据集训练专属小模型;或参考第 7 章的指令微调代码,用开源指令数据集微调模型,使其具备遵循指令的能力,用于垂直领域应用。

    场景三:作为 LLM 课程的配套实践材料

    本书配有 17 小时 15 分钟的官方视频教程,章节结构清晰,练习册《Test Yourself On Build a Large Language Model》可用来自测掌握程度,非常适合作为高校课程、企业内训或自学小组的配套实践材料。


    💡 推荐理由

    我第一次翻开这本书的代码时,有一种「原来 GPT 是这样工作的」的恍然大悟感。

    大多数 LLM 教程要么停留在概念层面,要么直接调用 transformers 库,黑盒到底。而 LLMs-from-scratch 选择了一条更难但更有价值的路:从张量运算级别手写实现,不依赖任何高层封装。

    我最喜欢的是第 4 章实现 GPT 模型那部分——当你亲手写出 self.attn = MultiHeadAttention(...)self.ln = LayerNorm(...) 并成功跑通时,那种「我理解了」的满足感是任何调用封装库都给不了的。

    作者 Sebastian Raschka 是 LLM 领域的顶级教育者,Lightning AI 的 LLM 负责人,写书风格非常「工程师友好」——没有冗余的数学推导,每一行代码都能跑,每一章都有配套练习。

    如果你是想深入 LLM 原理的开发者、研究者,或正在准备 LLM 相关技术面试,这个项目绝对值得你花时间从头到尾跟一遍。96.3K 的 Star 数不是偶然,是工程师们用脚投票的结果。


    📥 下载地址

    🔗 GitHub 仓库

    https://github.com/rasbt/LLMs-from-scratch

    访问 GitHub →

    📘 配套书籍

    《Build a Large Language Model (From Scratch)》
    Manning 出版,ISBN 978-1633437166

    Amazon 购买 →

    🎬 配套视频教程(17h15min)

    Manning LiveVideo:Master and Build Large Language Models

    观看视频 →


    📌 小提示:本项目是《Build a Large Language Model (From Scratch)》的官方配套代码,建议配合书籍一起学习,理解效果最佳。书籍附录 A 还提供了 PyTorch 入门教程,适合 PyTorch 零基础读者补基础。