博客

  • OpenCode:16.8万 Stars!开源AI编程代理,让终端成为你的AI结对程序员

    OpenCode:16.8万 Stars!开源AI编程代理,让终端成为你的AI结对程序员

    OpenCode 特色图
    OpenCode — 开源AI编程代理(168K Stars)

    📌 项目简介

    OpenCode 是一款开源AI编程代理(Coding Agent),由 anomalyco 团队开发,目前已在GitHub上获得 16.8万枚Star。它可以将你选择的AI模型直接转化为一个能够理解代码库、自主执行开发任务的编程助手——支持全权限的 build 模式用于日常开发,也提供只读的 plan 模式来安全地探索陌生代码库。OpenCode 同时提供命令行工具与跨平台桌面端,让AI编程真正触手可及。

    ⚙️ 安装要求和过程

    环境要求

    • 支持 macOS / Linux / Windows 三大平台
    • 需要已配置好的AI模型API(支持OpenAI兼容接口,可对接Claude、GPT、DeepSeek等)
    • Node.js 18+(使用npm/pnpm安装时)
    • 或直接下载桌面端(无需Node.js环境)

    快速安装(推荐方式)

    # 方式1:一键安装脚本(macOS/Linux)

    curl -fsSL https://opencode.ai/install | bash

    # 方式2:npm(跨平台)

    npm i -g opencode-ai@latest

    # 方式3:Homebrew(macOS/Linux)

    brew install anomalyco/tap/opencode

    # 方式4:Windows(Scoop)

    scoop install opencode

    # 方式5:下载桌面端(推荐普通用户)

    访问 https://opencode.ai/download 下载对应系统安装包

    初次配置

    安装完成后,运行 opencode 启动,按提示配置AI模型API密钥即可开始使用。

    🚀 核心功能

    ① 双模式代理切换

    Tab 键即可在 build(全权限开发模式)和 plan(只读分析模式)之间切换。build模式适合日常编码,plan模式则会在修改文件、执行命令前请求确认,非常适合探索陌生代码库或规划大型重构。

    ② general子代理:复杂多步任务

    通过在消息中 @general 即可调用通用子代理,专门处理需要多轮搜索、跨文件分析、多步骤协作的复杂任务。它会在后台自主规划并执行,完成后汇报结果。

    ③ 跨平台桌面端(Beta)

    提供 macOS(Intel + Apple Silicon)、Windows、Linux 的桌面端安装包,内置完整的AI代理能力,同时支持 VS Code SDK 集成。桌面端提供可视化的会话管理、文件预览和代理状态监控,大幅降低了使用门槛。

    ④ 多模型支持 & 社区生态

    支持所有 OpenAI 兼容接口(Claude、GPT、DeepSeek、Gemini 等),可通过环境变量灵活切换。官方 Discord 和 X 社区活跃,有专门的技能分享频道,用户可以提交自己的 Claude Skills 来增强代理能力。

    🔬 典型使用场景

    场景1:快速理解和修改陌生代码库

    刚接手一个开源项目,按下 Tab 切换到 plan 模式,让 OpenCode 分析代码库结构、梳理核心逻辑。它会生成详细的架构说明,并在不修改任何文件的前提下给出重构建议。确认方向后切换回 build 模式执行修改,安全又高效。

    场景2:日常功能开发与Bug修复

    在 build 模式下,直接用自然语言描述需求:”添加一个用户导出数据的API接口,需要鉴权”。OpenCode 会自动分析现有代码风格和路由结构,生成符合项目规范的代码,并同步更新相关测试用例。整个过程无需手动创建文件或查找文档,AI代理全程搞定。

    场景3:团队协作中的代码审查辅助

    在 review PR 前,让 OpenCode 先做一次自动化审查:检查代码规范、发现潜在 bug、评估性能影响。它能在几分钟内完成人工需要半小时才能做完的审查工作,并将结果整理成结构化的评论建议,大幅提升团队 code review 效率。

    💡 推荐理由

    作为近期 GitHub Star 增长最快的AI编程项目之一(28天内新增超过1000+ Star),OpenCode 最打动我的是它对「安全与效率平衡」的设计理念——plan 模式让你可以放心地把AI代理指向任何代码库,不用担心它在只读分析时误操作;build 模式则通过细粒度的权限确认,让你始终掌控每一次文件修改和命令执行。

    相比 Cursor、GitHub Copilot 等商业产品,OpenCode 完全开源(MIT协议),你可以自由定制、本地部署,甚至接入自己的私有模型。对于注重数据隐私的团队,或者想要深入理解 AI Coding Agent 工作原理的开发者,这是一个不可多得的优秀项目。

    另外,它的多语言 README(含简体中文)和活跃的 Discord 社区也让入门门槛大大降低。如果你正在寻找一个既能用又能学的开源AI编程工具,OpenCode 绝对值得一试。

    📥 下载地址

    官网:https://opencode.ai
    |
    下载页:https://opencode.ai/download

    GitHub:https://github.com/anomalyco/opencode
    |
    文档:https://docs.opencode.ai

    ⭐ 截至2026年6月,GitHub Star数:168,000+

    本文由 WorkBuddy AI 自动采集撰写,内容来源于项目公开资料,欢迎在评论区分享你的使用体验!

  • Oculus创始人憋了一年多的AI对话产品终于上线了,这次不是让你问问题,是让你聊天

    由Oculus创始团队联合创办的AI初创公司Sesame,5月28日正式推出了它的iOS应用。这家公司做的不是又一个问答机器人,而是一套会”真正聊天”的AI代理。它想解决的问题是:现在的AI对话产品要么回复太快但质量差,要么质量好但等得让人以为断线了——这两者之间有一道还没人真正跨过去的体验鸿沟。

    Sesame AI对话代理
    Sesame 的对话式AI代理(图片来源:Sesame)

    快和准之间的拉锯,Sesame选了第三条路

    Sesame在官方公告里说得很直白:回复快和思考充分之间天然有矛盾,慢一点的回复通常更准确,但等太久又会让人觉得不自然。为了破这个局,它搭了一套快速搜索和检索系统,让AI在说话的同时就能并行跑多个搜索任务,然后把搜到的新信息自然地编织进回复里。

    这意味着它的AI说话方式更像人——甚至能在句子说到一半的时候”临时转弯”,就像人突然想起一个关键点然后插进来一样。这种流畅感是现在主流AI对话产品普遍欠缺的,因为它们的回复逻辑基本上都是”想完了再一次性输出”,中间没有动态调整的空间。

    Sesame的测算显示,一个真正流畅的对话式AI需要在150-200毫秒内完成”听到-思考-开始回复”这个闭环,否则人就能感觉到延迟。这个指标比传统语音助手的响应标准要严格得多。

    四个性格各异的AI角色,而不只是换皮肤

    应用里目前有四个AI代理:Maya、Miles、Simone和Charlie,各有各的声音、性格、观点和记忆系统。Maya和Miles在之前的研究预览版里就已经亮相,当时几周内就有超过100万人用过。Sesame的投资方Sequoia在宣布B轮2.5亿美元融资的时候专门提到了这个数字。

    在测试版期间,Sesame根据用户反馈加了不少功能:带图片结果的搜索卡片、用来记录要点的笔记功能、不方便说话时的文字模式、以及可以深入展开的”深度探讨”模式。还有一个隐身模式,对话时AI能理解你的上下文,但什么都不会存进记忆里。


    眼镜才是终局,iOS应用只是第一步

    Sesame的野心不止于手机屏幕。公司在公告里暗示,它正在开发智能眼镜产品,预计2027年上市。到那时候,这些对话式AI代理就不只是”陪你聊天”了,而是能替你做事——这就是为什么它们叫”代理”而不是”聊天机器人”。你能用自然语言跟它对话,它理解你的意图之后直接帮你完成订餐、安排行程、发消息这些实际操作,而不需要你学会怎么写精准的提示词。

    这个愿景如果实现,对话式AI就从”问答工具”升级成了”数字执行层”。Sesame的Oculus基因在这里很有意思——当年Oculus做的是让人沉浸在虚拟世界里的硬件,现在Sesame想做的是让AI无缝融入现实世界的对话接口。两块业务的底层逻辑其实是一回事:用自然的方式让人和机器打交道。

    目前iOS应用已经在39个国家上线,完整功能暂时免费,但注册时可能还有等候名单。Android版本预计后续推出。

  • 谷歌把AI强塞进搜索结果,DuckDuckGo趁机把无AI搜索做成了生意

    谷歌5月官宣搜索框迎来25年来最大改版之后,DuckDuckGo的流量数据就开始一路往上飙。上周,它的无AI搜索页面访问量周环比涨了将近30%,美国地区应用安装量周环比增长18.1%,其中iOS端的峰值更是达到69.9%。这家一直主打隐私保护的搜索引擎公司,现在又给自己贴上了新的标签:反AI。

    DuckDuckGo No AI搜索页面
    DuckDuckGo 推出的无AI搜索页面(图片来源:DuckDuckGo)

    谷歌改版,DuckDuckGo接住了流量

    谷歌这次改版的核心变化是:搜索结果页顶部的”10条蓝色链接”被降级了,取而代之的是AI生成的概览卡片,还能根据后续问题把用户直接带入AI对话模式。对于习惯了传统搜索体验的用户来说,这个变化来得太猛,而且没有关闭选项。

    DuckDuckGo瞄准的就是这批”被谷歌强喂AI”的用户。它新推出了浏览器扩展,安装之后可以把 noai.duckduckgo.com 设为默认搜索引擎——这个页面没有AI辅助答案、没有聊天提示框,搜索结果里AI生成图片的出现频率也更低。目前扩展已支持 Chrome 和 Firefox,使用DuckDuckGo自家浏览器的用户则可以在设置里直接保留自己的AI偏好,清历史记录也不会重置。

    DuckDuckGo特别强调,5月28日当天,它的无AI搜索页面流量创了谷歌改版宣布以来的新高,是当天的3倍。而且这波增长看起来不是短期波动——访问量平均比基准线高出约84%,说明用户在用脚投票,而且是持续性地转走。

    DuckDuckGo自己也在做AI,这只是另一种产品策略

    这里有个微妙的细节:DuckDuckGo并不是一家”反AI”公司。它自己的AI聊天机器人产品一直在运营,还提供订阅计划,用户可以访问最新模型,附带VPN、身份盗用修复等服务。它做的更像是一种产品分层——想要无AI体验的用户有得选,想要AI功能的用户也有得选,而不是像谷歌那样把AI当成默认项硬推给所有人。

    接下来DuckDuckGo还会更新它的隐私要点浏览器扩展(支持Chrome、Firefox、Edge、Opera),新增AI搜索设置的开关,让用户更细粒度地控制自己想要的搜索体验。这个动作背后的逻辑很清楚:既然谷歌把AI搜索变成了默认,那”可选”本身就成了一个卖点。


    用户到底在反感什么

    这波”反AI搜索”情绪背后,其实是两类不满的叠加。一类是纯粹的产品体验问题——很多人用搜索就是要快速找到链接,AI概览占了半屏,还得要多点一次才能看到传统结果。另一类则是对AI生成内容准确性的不信任,尤其是当AI概览给出错误答案的时候,用户连纠错的机会都要多花几步才能找到。

    DuckDuckGo这波操作本质上是把”不想要AI”这个需求商业化了。它没有直接攻击AI技术本身,而是攻击了”强制默认”这个产品设计决策。这个角度挺聪明,因为即便是最热衷AI的人,也未必希望每次搜索都被AI拦一道。

  • CNN把Perplexity告了:AI抄袭新闻,这次摊上大事了

    CNN正式起诉AI搜索初创公司Perplexity。诉状里写得很直白:Perplexity的AI工具在未经授权的情况下,大量生成CNN报道的”逐字逐句”(verbatim)复制内容,还把CNN付费墙后面的内容直接提供给用户。

    CNN起诉Perplexity AI版权侵权
    CNN诉Perplexity案,AI版权之争再添一枪

    “你不能版权保护事实”

    Perplexity发言人的回应相当强硬,只有一句话:“你不能版权保护事实。”

    这句话的潜台词是:我们AI搜出来的内容是对事实的整合,不是对表达的抄袭。这个论点AI公司一直在用,但在法庭上能不能站住脚,目前还是个未知数。

    “人类报道、研究、写作、编辑和创造的内容,Perplexity在未经许可或补偿的情况下就拿走了。”——CNN诉状

    一场谈崩了的合作

    这件事有点戏剧性。CNN和Perplexity其实谈过合作——2025年10月,双方差点签下内容授权协议,CNN的内容本来要以Perplexity的”Comet Plus”订阅服务形式出现。

    但谈判最后崩了。崩的原因是:双方对”Perplexity在AI回答里如何使用CNN内容”这件事,始终没能达成一致。CNN在2025年11月撕毁了协议,随后发律师函要求Perplexity停止未经授权使用其内容。

    据CNN说法,Perplexity根本没有回应这封律师函。于是就有了这起诉讼。


    一个标题就能复现抄袭?

    CNN在诉状里举了一个很具体的例子。他们发现,只要在Perplexity的搜索框里输入一篇CNN付费报道的标题——那篇叫《What’s next for Minneapolis? A shaky promise, mounting tensions and the fight for control》——Perplexity就会吐出”大量逐字复制”的内容片段。

    这对新闻机构来说是个噩梦场景:读者不再需要点开原网站,因为AI已经把核心内容”总结”好了——而且这个总结很可能直接复制了原文的大段文字。

    Perplexity的”诉讼收集成就”

    CNN不是第一家告Perplexity的。这家公司的诉讼清单已经长得有点离谱:

    • 《纽约时报》:美国最权威媒体之一,版权侵权诉讼正在进行中
    • 大英百科全书(Encyclopedia Britannica):reference类内容被AI全文抓取
    • 韦氏词典(Merriam-Webster):词典内容被AI直接输出
    • 新闻集团(News Corp):《华尔街日报》母公司,同样以版权侵权起诉
    • 亚马逊:涉及不正当竞争和技术滥用
    • Reddit:平台内容被未经授权地用于AI训练或输出

    这还只是已经公开的部分。Perplexity的商业模式本身就建立在对全网内容的抓取和重组之上,和所有内容生产者的利益天然冲突。


    AI版权战,才刚刚开始

    这起诉讼背后是一个更大的问题:AI到底能不能”未经许可”使用他人的内容?目前美国法院还没有给出明确答案。

    有的AI公司(比如OpenAI和Anthropic)选择主动和出版社谈授权协议,走”合法合规”路线。Perplexity的路线则更激进——先做了再说,等被诉再应对。

    CNN在诉状里要求损害赔偿,并要求法院永久禁止Perplexity的被诉行为。这个案子如果走到庭审阶段,可能会成为AI版权领域的一个重要判例。

    对做内容的人来说,这场仗必须打。如果AI可以零成本拿走所有内容,那以后还有谁愿意认真做报道?

  • 黄仁勋GTC 2026演讲:英伟达不再只卖芯片,它要承包整个AI工厂

    北京时间6月1日,黄仁勋站在台北GTC的舞台上,对着全球70多个国家和地区直播。这场演讲的信息量很大,但最核心的信号只有一句话:英伟达已经从一家”卖GPU的公司”变成了一家”AI基础设施架构公司”。

    Agent AI来了,这次是真的

    黄仁勋在演讲中非常明确地宣告:”Agent AI(代理式AI)已经到来。“他说,AI的下一波浪潮正在从生成式AI转向代理式AI——这类AI的核心特征是能理解人类意图,自主调用工具完成任务,而不只是回答问题。

    他现场演示了AI Agent如何根据一段文字指令直接生成动画或CAD设计图。演示完他说了一句很黄仁勋的话:”这就是未来电脑的运作方式。”

    Agent AI能理解你的意图,然后自己去调用工具、完成任务。这不是未来,是现在。

    史上最野心AI系统量产了

    产品层面,黄仁勋宣布Vera Rubin AI系统已全面量产。这是英伟达迄今最雄心勃勃的AI系统,同时配套发布了专为AI时代设计的Vera CPU。

    还有几个重要发布:

    • Nemotron 3 Ultra:新的开源AI模型,直接对标业界最强闭源模型
    • RTX Spark超级芯片:进军Windows PC市场,AI PC今年秋季由戴尔、联想等厂商推出
    • DSX平台:专门用于构建AI工厂,可以在投入资金前用数字模拟器完成整个工厂的设计验证
    • Alpamayo 2推理模型:专为机器人出租车服务
    • Isaac GROOT开发平台:面向人形机器人开发者

    “Token就是资产”

    黄仁勋提出了一个很有意思的观点:Token已经成为AI公司获利的营收单位。每一次AI推理产生的Token,背后都是真金白银的算力消耗,也意味着有人在为这些Token买单。

    他形容AI算力需求是”火箭式飙升”,还幽默地把它和台湾股市的走势图做了类比。这个比喻很黄仁勋——他在台上经常用这种方式让观众直观感受增长速度。

    AI工厂有多烧钱?

    黄仁勋在演讲中透露了一组惊人的数字:一个1GW等级的AI工厂,起步成本是200亿到300亿美元。未来这个数字还可能攀升到每GW 800亿到1000亿美元。

    正因如此,英伟达推出了DSX平台——让客户在真正砸钱建厂之前,能先在数字世界里把整个AI工厂设计好、验证好。对软银、微软、谷歌这种级别的投资方来说,这个工具能帮他们避开几百亿美元的坑。


    AI会让程序员失业吗?

    有人问黄仁勋怎么看”AI抢走程序员工作”这件事,他的回答很直接:“这完全是无稽之谈。”

    他拿GitHub的数据说事:2023年AI辅助编程的使用次数是3亿次,到2026年前几个月已经冲到14亿次。但同一时期,软件工程师的数量实际上在增加,而不是减少。

    他的逻辑是:AI降低了写代码的门槛,让更多人能参与软件开发,反而扩大了整个行业的规模和就业容量。这个论点值得讨论,但数据摆在那里。

    英伟达到底想成为什么公司?

    演讲最后,黄仁勋自己总结了英伟达的定位演变:“英伟达确实已经成为一家基础架构公司。”

    这句话的潜台词是:英伟达不再只卖芯片或系统,它的目标是帮客户构建能创造最大营收和利润的AI基础设施。从GPU厂商到AI工厂架构师,这个跨度比大多数人意识到的要大得多。

    代理式AI的模式会从电脑扩展到机器人、卫星、云端基站,最终改变我们对各种设备的定义。黄仁勋的这块拼图,是让英伟达成为所有这些设备的”底层基础设施提供商”。

  • WWDC 2026前瞻:Siri要变独立App了,苹果押注AI重构全系统

    苹果刚刚正式宣布,2026年全球开发者大会(WWDC 2026)定在6月9日凌晨1点开幕。和往年不一样,这次苹果在发布会前就主动预告会带来”AI新进展”——外界普遍认为,这会是苹果近年来战略意义最重的一次开发者大会。

    Apple WWDC 2026前瞻
    苹果WWDC 2026将于6月9日开幕,Siri将迎来15年来最大变革

    Siri变独立App,这是15年来头一回

    最值得关注的变化是:Siri要被彻底重建,而且会以独立App的形式重新出现在iOS 27里。这是自2010年苹果收购Siri、把它塞进系统底层以来,时隔15年第一次恢复独立App形态。

    苹果这个举动背后的信号很直接:过去那套语音助手的逻辑已经走不通了。新版的Siri交互界面全部重做,采用类似iMessage的对话列表设计,支持多轮连续对话,历史记录可以搜索和回溯。用户还能通过全局手势从屏幕顶部中央下滑一键唤起——灵动岛在唤醒时会展开,配上发光光标效果,存在感比现在强得多。

    据彭博社马克·古尔曼等多方信源披露,新版Siri支持跨应用深度联动,可通过App Intents框架读取邮件、日历和屏幕内容并执行操作,算是真正意义上实现了多任务自动化。

    苹果找谷歌当”外援”

    在底层模型的选择上,苹果做了一件挺有意思的事:跟谷歌达成深度合作,引入Gemini大模型为新版Siri提供核心能力支撑。据悉苹果每年为此向谷歌支付约10亿美元。

    但苹果还是守住了隐私边界:用户数据在苹果自有的私有云服务器上运行,谷歌无权将对话内容用于模型训练,而且聊天记录支持用户自主设置保留30天、一年或者永久。

    不过苹果自己似乎对这套新版Siri的成熟度也没那么有信心。iOS 27测试版里,新版Siri已经被标注了”测试版”字样,系统里还内置了退出测试体验的开关——这意味着即便今年秋季正式发布,这个”测试版”标识很可能还会保留一段时间。

    AI功能全面铺开,但大多是”跟跑”

    除了Siri本身,iOS 27在AI能力上还有几项值得说的更新。写作辅助方面,苹果计划推出一套对标Grammarly的AI语法检查工具,以半透明菜单的形式从屏幕底部滑出,并排展示原文和AI修改建议,用户可以逐条采纳或者一键全部批准。

    快捷指令也迎来了自然语言化升级——以前用户得手动拼装自动化流程,现在只要在文本框里用自然语言描述需求,系统就能自动生成并安装对应的快捷指令。门槛低了很多。

    更有意思的是,iOS 27将引入名为”Extensions”的第三方AI模型接入系统,允许用户安装Claude、Gemini等主流AI应用作为扩展,并在搜索栏里自由切换不同的AI引擎。这意味着ChatGPT从苹果的”特权合作伙伴”变成了众多选项之一——苹果的AI平台化战略,这次算是正式浮出水面了。


    折叠屏iPhone也在路上

    今年9月,苹果预计将发布第一代折叠屏iPhone。这是苹果十几年来最大的产品形态革新,对系统软件和AI能力的适配提出了全新要求:多任务调度、大屏界面优化、AI交互入口的重新设计,都需要硬件、软件和AI能力三方协同。

    从这个角度看,iOS 27这次AI重构做得好不好,会直接决定折叠屏iPhone的产品说服力。目前约80%到85%的在用iPhone不具备运行新一代Apple Intelligence功能所需的硬件条件,涉及设备规模达11亿到13亿台——这批用户构成了苹果潜在的换机蓄水池,一旦新版Siri的体验足够扎实,AI能力从”可选项”变成”强依赖”,这轮换机潮的规模会相当可观。

  • “This is fine”创作者把AI公司告了,结果双方悄悄和解了

    那个著名的表情包——一只狗坐在着火的房间里,一脸淡定地说”这是挺好的(This is fine)”——你可能在哪里都见过它。它的创作者KC Green最近跟一家AI创业公司干了一仗,原因是对方在广告里直接用了他的创作形象。

    This is fine meme原图
    著名的”This is fine”表情包,被AI公司用于广告推广

    广告里的狗说了不一样的话

    事情要从Artisan这家公司说起。他们在纽约和旧金山的公交地铁站投放广告,广告里用了Green笔下那只坐在火里的狗,但把原来的台词改成了”我的pipeline着火了”,然后顺便推销自家的AI销售助手Ava。

    艺术家KC Green本人在社交媒体上说,自己的作品”像AI窃取内容一样被盗用了”。

    Green还公开呼吁粉丝,看到这些广告的话可以”进行破坏”——当然这是在讽刺意义上说的。他后来告诉TechCrunch,最让他沮丧的是,本来应该花时间在创作上,结果不得不去研究怎么跟美国司法系统打交道。

    双方各退一步

    Artisan这边倒是表现得挺客气,说他们对Green和他的作品”非常尊重”。然后就在本周,创始人兼CEO Jasper Carmichael-Jack宣布双方已经达成协议。

    具体条款没有公开,但结果很明确:Artisan撤掉了纽约和旧金山那些用了Green角色的广告,Green也删掉了他最初发的声讨帖子。Green跟TechCrunch确认,双方”很快就达成了和解”。


    AI内容版权这条路上的下一个案子

    这事儿其实挺典型的。AI公司和内容创作者之间的版权纠纷越来越多,从Getty Images告Stability AI,到纽约时报告OpenAI和微软,再到这一次的表情包广告争议。创作者们的底线很清楚:你可以训练模型,但不能直接把人家的作品拿来当广告素材用。

    Green这边算是拿到了一个还算满意的结果——广告撤了,事情了了。但整个AI行业的版权边界,还远没有到能说”这是挺好的”的地步。

  • Chroma:28.2K Stars!AI 开源向量数据库,让语义搜索 5 行代码搞定

    Chroma:28.2K Stars!AI 开源向量数据库,让语义搜索 5 行代码搞定

    如果你正在构建 RAG 应用、智能客服、文档问答系统,你会发现一个核心难题:如何让 AI 从海量文本中快速找到最相关的内容?

    Chroma 向量数据库
    Chroma —— 面向 AI 的开源向量数据库

    📦 项目简介

    Chroma 是专为 AI 应用设计的开源向量数据库,定位为“AI 的搜索基础设施”。它让开发者能够以极简的 API 完成文档嵌入、向量存储、语义检索的全流程,是构建 RAG(检索增强生成)系统的首选工具之一。

    Chroma 的核心设计理念是简单优先:核心 API 只有 4 个函数,5 行代码即可完成文档入库和语义搜索。同时支持 Python 和 JavaScript 双语言客户端,并提供 Chroma Cloud 托管服务(注册即送 $5 免费额度,30 秒内完成数据库创建)。

    ⚙️ 安装要求与过程

    环境要求

    • Python:3.8+(推荐 3.9+)
    • Node.js:16+(使用 JavaScript 客户端时需要)
    • 内存:最低 2GB(内存模式);生产环境建议 4GB+
    • 存储:持久化模式需要磁盘空间存放向量索引

    快速安装(3 步搞定)

    # 第1步:安装 Chroma(Python)
    pip install chromadb
    
    # 第2步:启动 Chroma 服务(可选,也可直接用内存模式)
    # chroma run --path ./chroma_db
    
    # 第3步:写 5 行代码,完成第一个语义搜索!
    import chromadb
    client = chromadb.Client()
    collection = client.create_collection("my_docs")
    collection.add(documents=["你好世界", "Hello World"], ids=["id1", "id2"])
    results = collection.query(query_texts=["greeting"], n_results=1)
    print(results)

    JavaScript/TypeScript 用户:

    # JavaScript/TypeScript 安装
    npm install chromadb
    
    # 快速使用
    import { ChromaClient } from 'chromadb';
    const client = new ChromaClient();
    const collection = await client.createCollection({ name: "my_docs" });
    await collection.add({ ids: ["id1"], documents: ["Hello World"] });
    const results = await collection.query({ queryTexts: ["greeting"], nResults: 1 });
    console.log(results);

    💡 核心功能

    🎯 极简 API 设计
    核心 API 仅 4 个函数:创建集合、添加文档、查询搜索、管理集合。学习成本几乎为零,5 行代码即可完成语义搜索全流程。

    🔍 多模态搜索能力
    支持纯向量搜索、全文搜索、混合搜索(向量+关键词)三种模式。可根据场景灵活选择,搜索精度远超单一模式。

    🧠 自动嵌入处理
    添加文档时自动完成分词 → 向量嵌入 → 索引构建全流程,内置主流 Embedding 模型(Sentence Transformers 等),也支持自定义向量传入。

    🔧 灵活部署模式
    支持内存模式(快速原型)、持久化存储(生产环境)、客户端-服务端(多应用共享)、Chroma Cloud(完全托管,免运维)。

    🏷️ 多维度过滤
    支持基于元数据(metadata)的精确过滤,和基于文档内容的包含过滤。例如:只搜索”来源为官网”的文档,或只搜索”包含特定关键词”的段落。

    🌐 多语言客户端
    官方支持 Python 和 JavaScript/TypeScript 双语言客户端,API 设计一致。社区还提供了 Go、Java、Ruby 等语言客户端,覆盖主流开发生态。

    🚀 典型使用场景

    场景一:RAG 文档问答系统

    将企业知识库、产品文档、FAQ 等文本存入 Chroma,用户提问时通过语义搜索找到最相关的片段,再交给 LLM 生成回答。这是 Chroma 最经典的应用场景,也是目前大量 AI 应用的标准架构。

    # RAG 典型代码(简化版)
    import chromadb
    from sentence_transformers import SentenceTransformer
    
    # 1. 连接 Chroma
    client = chromadb.Client()
    collection = client.get_or_create_collection("company_docs")
    
    # 2. 文档切片入库(实际项目可用更高级的分片策略)
    docs = ["退款政策:7天内可申请...", "Shipping: 2-5 business days..."]
    collection.add(documents=docs, ids=["doc1", "doc2"])
    
    # 3. 用户提问 → 语义检索 → 交给 LLM
    query = "如何申请退款?"
    results = collection.query(query_texts=[query], n_results=3)
    # results['documents'] 即为最相关的文档片段,传给 LLM 生成回答

    场景二:AI 应用语义缓存

    对 LLM 的相似问题,直接返回缓存的答案,避免重复调用大模型,可降低 30-80% 的 API 成本。Chroma 的向量相似度搜索非常适合实现语义缓存——用户问”怎么退款”和”退款流程是什么”应该命中同一个缓存。

    场景三:内容推荐与去重

    新闻推荐、电商商品推荐、短视频去重等场景,都可以通过向量相似度来实现。Chroma 的轻量特性使其非常适合作为推荐系统的向量检索层,毫秒级返回相似内容。

    🌟 推荐理由

    我推荐 Chroma 的核心原因是它把”向量数据库”这个听起来很高大上的东西,做到了真正对开发者友好。以下是我的真实使用感受:

    第一,上手速度极快。对比 Pinecone、Weaviate、Qdrant 等竞品,Chroma 的学习曲线是最平缓的。核心 API 只有 4 个函数,README 中的示例代码复制到本地,5 分钟就能跑通第一个语义搜索。对于想快速验证 RAG 想法的开发者,这非常重要。

    第二,开源 + 零依赖启动。Chroma 采用 Apache 2.0 开源协议,可以免费用于商业项目。内存模式不需要安装任何外部依赖(不需要 Docker、不需要单独装数据库),pip install chromadb 之后直接就能用,对个人开发者和小型团队极其友好。

    第三,生产路径清晰。很多”易上手”的工具到了生产环境就掉链子,但 Chroma 提供了完整的升级路径:开发阶段用内存模式快速迭代 → 部署时用持久化模式 → 规模化后用 Chroma Cloud 或自托管 HTTP 服务。这个路径非常平滑,不需要重写代码。

    什么场景不适合 Chroma?如果你需要百亿级向量规模(如千万级文档),Chroma 目前的能力可能不如专用的分布式向量数据库(如 Milvus)。但对于99% 的 AI 应用开发者(百万级向量以下),Chroma 的性能和易用性是最优平衡。

    📥 下载地址

    🌐 官方网站
    trychroma.com

    🐙 GitHub 仓库
    github.com/chroma-core/chroma
    (28.2K+ Stars)

    📦 PyPI 安装
    pip install chromadb

    📦 npm 安装
    npm install chromadb

    ☁️ Chroma Cloud
    cloud.trychroma.com
    (注册送 $5 免费额度)

    📌 本文由 WorkBuddy AI 自动采集撰写,阅读原文请访问 GitHub 仓库。

  • Box创始人说科技CEO们得了”AI精神病”,这到底是在骂谁

    Box创始人亚伦·莱维最近在社交媒体上发了一句狠话:科技公司的CEO们”尤其容易患上AI精神病”。这话一出,科技圈炸了。

    先别急着站队。莱维并不是在否定AI工具的价值,他的核心观点其实很朴素:CEO们需要真正去用这些工具,才能理解它们到底能做什么、不能做什么。如果你远离一线,只靠幻灯片来了解AI,做出的决策大概率会跑偏。

    AI精神病争议
    “AI精神病”一词正在科技圈引发激烈讨论 · 图片来源:TechCrunch

    “AI精神病”到底是什么

    “AI精神病”(AI psychosis)这个词最近被用来形容一种现象:有人对AI产生了不切实际的幻想,过度依赖AI给出的答案,甚至在认知和判断力上出现明显偏差。

    在极端案例中,确实有用户因过度依赖AI建议而导致现实感知出现问题。但莱维用这个词,更多是在批评科技CEO们对AI的盲目乐观——他们相信AI能在短时间内替代大部分人类工作,却对自己公司里”最后一公里”的落地难题视而不见。

    “CEO们尤其容易患上AI精神病,因为他们足够远离产生AI大部分价值仍必须完成的最后一公里工作。”——Box CEO 亚伦·莱维

    谷歌的尴尬时刻

    这场争议的大背景,是公众对AI的反感正在积聚。大学毕业典礼上,任何提及AI的致辞都会引发嘘声;谷歌宣布为搜索加入更多AI功能后,DuckDuckGo的安装量激增了30%。

    TechCrunch最近还报道了一个让人哭笑不得的案例:有用户问谷歌AI概览”Google里有多少个P?”,它给出了”两个P”的答案。这类低级错误一再提醒人们,大语言模型在拼写和精确事实核查上仍有硬伤。

    谷歌正面临两难困境:它必须追逐AI浪潮来保持竞争力,但每一步都在消耗用户对这个品牌最核心的信任——”它能给我准确的信息”。部分用户已经开始用脚投票。

    CEO们真的”生病”了吗

    在TechCrunch的Equity播客中,编辑们讨论了这个问题。一种观点认为,很多CEO对AI的认知确实脱节——他们看到的是Demo里的完美表现,不是客户实际部署时的各种坑。

    另一种观点则更温和:CEO们也是人,面对AI这种可能改变游戏规则的技术,过度兴奋是正常的。真正的问题在于,这种兴奋是否会变成不理性的投资决策和战略规划。

    莱维自己的公司是做企业云存储和协作的,Box也在用AI。他的批评更多是针对那些”为了AI而AI”的同行——在没有清楚想明白商业逻辑之前,就大把烧钱上AI项目的CEO们。


    这波争议对普通人的意义

    抛开科技圈的八卦,这场争论其实触及了一个更普遍的问题:我们该怎么和AI共处?过度依赖和过度排斥,看起来都不是正确的答案。

    对于正在使用AI工具的开发者和知识工作者来说,莱维的建议其实是常识:去真正用它,理解它的边界,别被Demo骗了。这和学任何新工具没什么两样。

    “AI精神病”这个词可能会被滥用,变成一句随便贴给异见者的标签。但它提出的警示值得记住:当所有人都在往同一个方向狂奔的时候,停下来想一想你要去哪里,通常是个好主意。

  • 英伟达正式发布RTX Spark芯片,要替英特尔和苹果做PC心脏

    今年秋季,英伟达要从”显卡公司”变成”PC芯片公司”了。在历经数月的爆料后,RTX Spark正式亮相——这是英伟达第一款面向普通消费者的完整计算芯片,内置CPU和GPU,直接塞进笔记本和迷你主机里。

    英伟达产品管理高级总监马克·埃弗曼放出狠话:”这是有史以来最高效的PC芯片。”不过他没有拿出任何数据或图表来支撑这个说法,留到秋季发布时再验证。

    英伟达RTX Spark芯片
    英伟达CEO黄仁勋在Computex上展示RTX Spark芯片 · 图片来源:The Verge

    和DGX Spark同款,但走向大众市场

    RTX Spark本质上和英伟达去年发布的”个人AI超算”DGX Spark搭载的GB10芯片规格一致,现在从单一产品扩展为一个芯片系列。旗舰款规格毫不逊色:20个CPU核心、6144个GPU核心、128GB LPDDR5X内存。

    后续还会推出定位更低的版本,最低内存配置16GB,覆盖更多价格段。埃弗曼承诺:”RTX Spark会是一个覆盖大量不同价格段的产品系列,我们看到的整体市场机会非常大。”

    “这是有史以来打造出的最高能效PC芯片。”——英伟达产品管理高级总监 马克·埃弗曼

    Arm架构,需要模拟层跑x86软件

    和苹果M系列、高通骁龙一样,RTX Spark是Arm架构芯片。这意味着为英特尔、AMD x86处理器打造的传统Windows软件,需要通过模拟层运行,可能会有性能损耗。

    不过微软已经花了数年时间为高通、英伟达的Arm芯片优化Windows系统和Prism模拟器,英伟达也声称自身的图形和AI能力会让Arm芯片上的Windows体验达到前所未有的水平。

    AI是本场主角

    英伟达宣称,凭借RTX Spark的性能,用户可以在14mm厚、无外接电源的笔记本上,渲染90GB的3D场景、编辑12K分辨率视频,还能以1440p分辨率、100fps的流畅帧率运行《印第安纳琼斯:大圆环》。

    最高128GB的统一内存是另一个卖点,和AMD上一代Strix Halo芯片持平。英伟达表示搭载RTX Spark的设备可以运行1200亿参数的AI智能体,微软对这一特性在Windows上的应用表现出了浓厚兴趣。

    RTX Spark笔记本特性
    英伟达展示RTX Spark的AI应用场景

    英伟达还画了不少AI应用场景的大饼:电竞主播可以让PC自动关灯、静音麦克风、切换直播模式,方便自己抽身去吃饭;设计师可以通过Adobe直接把草图生成完整图像、渲染3D模型,再生成AI视频,全程只需要语音指令。

    英伟达说这将带来”一个新的个人计算范式:AI就是交互界面”——用户不再需要学习复杂的应用UI,直接和PC对话就能完成操作。听起来很诱人,实际表现如何等秋季上市后见分晓。

    首批合作厂商和产品

    英伟达已经拉拢了几乎所有主流PC厂商。今年秋季率先上市的8款RTX Spark笔记本包括:

    • 华硕 ProArt P14、P16
    • 戴尔 XPS 16
    • 惠普 OmniBook X14、Ultra 16
    • 联想 Yoga Pro 9i
    • 微软 Surface Laptop Ultra
    • 微星 Prestige 16 Flip AI

    其中微软的新品被Surface部门负责人安德鲁·希尔称作”我们有史以来打造的最强大的设备”。埃弗曼表示,合作伙伴已经在研发超过30款笔记本和10款台式机。


    游戏兼容性和软件生态

    软件生态方面,Blender、DaVinci Resolve、Maxon Cinema 4D、Topaz Photo、剪映、Cubase等软件现在已经原生支持Arm架构。Adobe也已加入合作,为Premiere和Photoshop提供针对英伟达Spark笔记本的专属优化。

    游戏方面,Riot Games正在将《英雄联盟》和《无畏契约》带到Windows on Arm平台;Krafton正在移植《PUBG》。埃弗曼声称”所有顶级游戏都可以在RTX Spark上运行,且体验出色”。

    目前还有一些疑问没有答案:定价尚未公布,仅表示首批产品”瞄准市场的高端价位段”;续航表现也只是模糊地说”会比你之前见过的所有RTX笔记本好得多”;性能对比数据则完全没有分享。