标签: AI

  • Haystack:构建生产级 LLM 应用的首选 AI 编排框架,25K+ Stars 让 RAG 和 Agent 工作流完全透明可控

    Haystack:构建生产级 LLM 应用的首选 AI 编排框架,25K+ Stars 让 RAG 和 Agent 工作流完全透明可控

    Haystack Banner

    Haystack 是由 deepset 团队(已被 Cohere 收购)开发的开源 AI 编排框架,专为构建生产级 LLM 应用而设计。它让开发者以显式控制的方式设计模块化 Pipeline 和 Agent 工作流,覆盖 RAG、多模态、语义搜索、问答系统和自主智能体等场景。

    📦 安装要求和过程

    环境要求

    • Python >= 3.9(推荐 3.10+)
    • pip 包管理器
    • 可选:Docker(用于容器化部署)
    • 可选:GPU(用于本地模型推理加速)

    快速安装

    # 安装稳定版
    pip install haystack-ai

    # 安装 nightly 预览版(尝鲜最新功能)
    pip install –pre haystack-ai

    # 验证安装
    python -c “import haystack; print(haystack.__version__)”

    💡 可选依赖:pip install haystack-ai[openai,anthropic,mistral] 可一次性安装主流模型提供商支持。

    🚀 核心功能

    🧠

    上下文工程优先

    显式控制信息检索、排序、过滤、组合、结构化和路由的全流程。Pipeline 和 Agent 工作流完全透明、可追踪。

    🔄

    模型与厂商无关

    集成 OpenAI、Mistral、Anthropic、Cohere、HuggingFace、Azure、AWS Bedrock、本地模型等。切换模型或基础设施无需重写系统。

    🧩

    模块化与可定制

    内置检索、索引、工具调用、记忆、评估等组件,也可自定义。支持循环、分支和条件逻辑,精确控制上下文流转。

    🌐

    可扩展生态系统

    通过统一接口构建和共享自定义组件,社区和第三方可轻松扩展 Haystack。支持 Hayhooks 将 Pipeline 包装为 REST API 或 MCP 服务器。

    💡 典型使用场景

    1

    企业级 RAG 知识库系统

    某德国联邦部委使用 Haystack 构建了面向公众的语义搜索系统,支持多语言文档检索和精准问答。通过 Haystack 的混合检索(稠密+稀疏向量)和重排序功能,实现了比传统关键词搜索高出 3 倍的准确率。系统部署在私有云上,数据完全合规。

    2

    多模态 AI 客服助手

    某欧洲航空公司使用 Haystack 构建了支持文本+图片输入的客服 Agent,客户可以上传行李损坏照片,Agent 自动检索相关政策文档并生成处理建议。Haystack 的多模态 Pipeline 设计让文本和视觉信息在统一框架下协同工作,大幅缩短了投诉处理周期。

    🌟 推荐理由

    💬 笔者心得

    在尝试了 LangChain、LlamaIndex 等多个 LLM 应用框架后,Haystack 给我留下的印象是「透明」和「可控」。与 LangChain 的「黑盒」链式调用不同,Haystack 的 Pipeline 是显式定义的——每个组件的输入输出、数据流向都一目了然,调试起来非常直观。

    特别值得一提的是 Haystack 对上下文工程(Context Engineering)的重视。在 RAG 系统中,如何精准控制检索策略、如何组合多路召回结果、如何设计记忆机制,这些才是决定效果的关键。Haystack 把这些控制权交给了开发者,而不是封装成不可见的「魔法」。

    另外,Haystack 的企业级基因也很突出——它诞生于 deepset 的商业化实践,从第一天就考虑了生产部署、可观测性、访问控制等现实需求。现在 deepset 被 Cohere 收购,Haystack 企业版(Haystack Enterprise Platform)更是提供了托管化生产 setup,对的企业用户来说是很好的选择。

    📥 下载地址

    🌐 官方网站

    haystack.deepset.ai

    🐙 GitHub 仓库

    github.com/deepset-ai/haystack

    25,730+ Stars · 2,884+ Forks

    📚 官方文档

    docs.haystack.deepset.ai

    💬 Discord 社区

    discord.gg/qZxjM4bAHU

    🐍 PyPI 安装

    pip install haystack-ai

    🍳 Cookbook 食谱

    haystack.deepset.ai/cookbook

    📊 项目速览
    ⭐ Stars:25,730+
    🍴 Forks:2,884+
    📅 创建时间:2019-11
    🔄 最近更新:2026-06-26
    📝 开源许可:Apache-2.0
    💻 主要语言:Python
    🏢 维护团队:deepset(Cohere 旗下)
    🌟 用户案例:Apple、Meta、NVIDIA、Netflix、Airbus 等

  • 高通想做下一个英伟达,先掏出了Dragonfly CPU

    高通Dragonfly CPU
    高通发布Dragonfly C1000 CPU,进军AI数据中心市场 | 图源:生成图

    美东时间6月25日,高通在纽约举办了2026投资者日暨股东大会。这场活动之前,市场对高通能不能在AI数据中心市场分一杯羹持怀疑态度——毕竟这个市场已经被英伟达、AMD和英特尔盯住了。但高通拿出来的一套完整产品路线图和一份大幅上调的财务指引,让股价在盘后直接涨了13%。

    Dragonfly C1000:专为AI智能体设计的CPU

    高通在投资者日上正式发布了Dragonfly C1000处理器。这款芯片的定位很明确:不是给普通服务器跑数据库的,是给AI智能体用的。随着自主智能体(Agentic AI)快速普及,CPU需要承担越来越多原本由GPU处理的任务——智能体要持续思考、调用数据库、执行代码,如果CPU跟不上,GPU就只能干等着,而GPU闲置对数据中心来说就是直接亏钱。

    高通的差异化优势在于功耗。做了几十年手机芯片的人,最知道怎么在性能和处理功耗之间找平衡。现在数据中心扩建最大的瓶颈不是芯片性能,是电力——各大云厂商都在为能耗发愁。高通把在手机和边缘计算上积累的能效技术搬到数据中心,正好打在了痛点之上。

    高通CFO Akash Palkhiwala在会后接受采访时说得很直白:”CPU市场供给不足,行业需要更多具备成熟技术能力的参与者。”言下之意:英伟达和AMD的CPU供应跟不上需求,高通来补这个缺口。

    Meta已经下单,2028年量产即部署

    发布的同时,高通宣布了一个重量级合作:Meta将在2028年Dragonfly C1000量产阶段大规模部署这款芯片,双方已签署长期供货协议。对高通来说,拿下Meta这样的头部云厂商的订单,是对产品竞争力的最好背书。

    除了Meta,高通还透露已经拿到两家超大规模云服务商(hyperscaler)的定制芯片大额订单,定制芯片业务将逐步兑现规模化收入。高通CEO Cristiano Amon说,高通和云厂商的合作”不是从零起步”——凭借手机芯片和边缘计算产品,高通早已和全球几乎所有头部云厂商建立了稳定合作关系。

    收购Modular,对标英伟达CUDA

    硬件之外,高通同步宣布收购AI软件公司Modular。这笔交易的对价是不超过1920万股高通普通股,按高通周二收盘价计算,价值约39.2亿美元。Modular拥有Mojo编程语言、MAX推理平台和AI编译器,这套软件体系可以实现AI应用在不同芯片架构上高效运行——高通明说,这个技术栈要对标的是英伟达的CUDA。

    CUDA是英伟达最深的护城河。无数AI应用和模型都基于CUDA开发,换不了平台,用户就被锁住了。高通收购Modular,就是要打通从芯片硬件、编译工具到模型部署的全链条,复制英伟达靠软硬件协同构筑行业壁垒的路径。这个算盘打得清楚:光有芯片不够,得有软件生态才能留住客户。


    财务指引大幅上调,股价盘后涨13%

    这次投资者日最刺激市场的地方,是高通大幅上调了中长期营收指引。2029财年非手机业务营收指引从原来的220亿美元上调至400亿美元,增幅接近91%。汽车业务的设计订单总价值已扩容至650亿美元,2029财年汽车板块收入目标提高至100亿美元。

    手机芯片一直是大通的基本盘,占最近季度总营收的三分之二。但全球智能手机出货量早在2017年就见顶了,增长空间有限。高通过去几年持续向智能汽车、机器人和云端算力倾斜资源,这次的财务指引上调,算是给市场交了一份多元化转型的时间表。

    多重利好催化下,高通股价在会后盘后交易中大涨13%。市场用钱投票,表达了对高通进军数据中心算力市场的看好。至于高通能不能真的从英伟达、AMD和英特尔手里抢到市场份额,接下来几年见分晓。

  • 特朗普政府拦下GPT-5.6,OpenAI只能先给少数人用

    OpenAI GPT-5.6延迟发布
    特朗普政府要求OpenAI分阶段发布GPT-5.6 | 图源:生成图

    这件事发生在本周三(6月25日)OpenAI的内部员工Q&A上。据The Information报道,Sam Altman告诉员工,GPT-5.6不会像以往那样直接公开发布,而是先以”有限预览”的形式,只给一小群企业客户用。在这个预览期里,美国政府会逐个审批客户访问权限。

    政府把关,客户一个一个批

    按照Altman对员工的说法,GPT-5.6不会直接对公众开放,而是先进入”有限预览”阶段——只给一小群企业客户用。在这个预览期里,美国政府会逐个审批,决定哪家公司能拿到访问权限。

    如果这段有限发布进展顺利,OpenAI希望”几周后”再扩大范围,做更广泛的发布。但这个”几周”到底是什么时候,目前没人知道。

    据The Information报道,Altman在本周的公司内部Q&A上向员工传达了这个消息。他说政府会”逐客户审批”访问权限。值得注意的是,Altman还提到,OpenAI的员工如果对此有异议,也得配合执行。

    Anthropic的遭遇更惨

    同样被政府盯上的还有Anthropic。本月早些时候,Anthropic收到最后通牒:必须暂停Mythos 5和Fable 5这两个先进模型的访问。政府还出台了一项出口管制指令,禁止”外国公民”访问这些技术——这甚至包括了Anthropic自己那些不是美国公民的员工。

    相比之下,OpenAI拿到的条件算”客气”的了。但问题在于,这种监管力度是不对称的。政府对待不同的AI公司,标准明显不一样,这让整个行业都开始担心:下一个被盯上的会是谁?

    特朗普的”放手”承诺去哪了

    这事儿最讽刺的地方在于,特朗普政府上台时明明承诺过对AI采取”放手”态度,要”速度取胜”,还鼓励美国AI出口。结果现在,政府却在用一种相当直接的方式介入前沿模型的发布节奏。

    本月早些时候,特朗普签署了一项行政令,要求特定AI公司在公开发布新模型之前,先自愿提交给政府做测试和评估。这个”自愿”到底有多自愿,从OpenAI和Anthropic的遭遇来看,答案已经很明显了。


    网络安全模型:真正的威胁还是营销噱头

    政府担心的具体是什么?据TechCrunch的分析,核心顾虑在于像Mythos这样的前沿网络安全模型。这类模型理论上能以人类分析师无法企及的速度发现和利用软件漏洞——而很多软件系统里都藏着这样的漏洞,等于给攻击者留了后门。

    但问题是,这些模型目前都不对外开放。它们到底有多危险,外界其实没法验证。这也让一些人怀疑,Anthropic口中的”安全风险”到底有多少是真实的,又有多少是营销话术——毕竟,把模型包装成”太危险不能随便给你用”,也是一种很有效的产品定位。

    不管真相如何,政府介入AI模型发布这件事,已经从一个假设变成了现实。接下来几个月,AI行业的游戏规则可能会因为这件事发生根本性的改变。

  • 内存芯片紧缺让美光赚翻了,AI算力狂潮背后的隐形赢家

    美光内存芯片与AI算力
    美光科技正在从AI内存芯片紧缺中收获惊人的增长

    AI热潮捧红了一堆创业公司和亿万富翁,但它还造成了一个不那么明显的结果:内存芯片严重紧缺。这个问题预计会持续到2027年,而最大的美国内存芯片制造商美光(Micron),正在成为这场”RAMageddon”里最耀眼的赢家。

    从830亿到1.2万亿,美光的股价坐了火箭

    2024年初,美光的股价还在83美元左右徘徊,市值大约910亿美元。而本周,美光的股价已经冲破1048美元,市值站上1.2万亿美元。

    这个涨幅有多夸张?不到两年半的时间,股价翻了超过12倍。带动这一切的核心动力只有一个:AI。

    AI模型对内存的需求是出了名的贪婪。训练要内存,推理也要内存,而且随着模型越来越大,这个需求还在加速。美光作为全球最主要的内存芯片供应商之一,站在了这场需求爆炸的正中央。

    财报数字让人咋舌

    美光本周三收盘后公布了第三财季财报,数字让华尔街分析师集体重新审视自己的模型。营收同比翻了四倍,达到414.5亿美元;净利润从去年同期的18.8亿美元暴涨到282亿美元。

    财报发布后,美光股价当天飙升超过13%。公司对第四财季的指引同样亮眼:预计营收在490亿到510亿美元之间。

    这些数字背后是一个简单的供需逻辑:AI数据中心对HBM(高带宽内存)和企业级DRAM的需求远超供应,美光手里握着的订单已经排到了未来几个季度。

    跟Anthropic绑在了一起

    美光这周还有一件事值得注意:它跟AI实验室Anthropic签了一份战略协议,将向Anthropic供应内存和存储芯片。更意味深长的是,美光还参与了Anthropic的最新一轮(Series H)融资——虽然它没有披露具体投了多少钱。

    这个动作很有意思。芯片厂商投资AI实验室,本质上是在用资本绑定未来的客户需求。Anthropic现在是Claude的开发者,也是AI领域最炙手可热的公司之一。美光通过投资锁定供应链关系,这步棋下得相当精明。

    消费者也在为内存紧缺买单

    内存芯片紧缺不只是企业端的问题,它正在向消费端传导。苹果CEO库克一周前刚警告说,苹果产品涨价已经不可避免——背后的重要原因之一就是内存成本飙升。

    这波涨价会落到每一个买手机、买电脑的消费者头上。AI很酷,但买单的不只是科技巨头,还有每一个普通用户。


    美光的狂欢能持续多久?这个问题没有确定答案。内存芯片行业的周期性是出了名的,供不应求可以在几个季度内变成供过于求。但至少在目前,AI算力扩张的势头还没有放缓的迹象,美光的好日子可能还会持续一段时间。

    对于那些还在犹豫AI基础设施投资机会的人来说,美光的股价走势提供了一个参考:在AI浪潮里,不一定非要去投模型公司,给这些公司提供”粮食”的芯片厂商,可能是更稳的赌注。

  • Notion Mail宣布关闭,AI智能体正在吃掉独立应用的地盘

    AI智能体接管邮件管理
    Notion Mail的退场,折射出AI智能体对软件交互方式的根本性重塑

    Notion本周宣布,将于9月22日关闭其邮件产品Notion Mail。表面上看,这是一个产品的退场;实际上,它折射出的是AI智能体对软件交互方式的一次根本性重塑。

    一半用户不打开收件箱了

    Notion在X上发帖解释了关闭原因:随着Notion的智能体能力越来越强,他们观察到越来越多用户把邮件工作流直接交给智能体处理,超过一半的Notion Mail用户管理邮件时根本不会打开收件箱

    一个邮件客户端的产品,有一半用户不打开收件箱——那他们还用什么?用智能体。智能体帮他们分类、帮他们起草回复、帮他们决定哪些邮件需要人工介入。收件箱这个存在了几十年的概念,正在被智能体架空。

    Notion的决定很直接:既然用户已经不怎么开收件箱了,那就别维护一个独立的邮件客户端了,全力做智能体。

    从收购Skiff到关闭Mail,只用了两年

    Notion Mail这个产品本身的历史并不长。2024年,Notion收购了注重安全的生产力创业公司Skiff,随后在同年10月以预览模式推出了邮件产品,2025年4月才正式开放给用户使用。

    它的卖点是把邮件和Notion AI打通,自动标签、智能过滤、帮你安排日程。对手也不少:Superhuman在做”最快的邮件体验”,Fyxer在用AI帮你写邮件,现在又冒出来一个AgentMail,今年3月刚融了600万美元,专门做”给AI智能体用的邮件服务”。

    Notion Mail从推出到关闭,满打满算也就两年。这个节奏在AI时代已经不算短了——但跟智能体的发展速度比起来,还是慢了一拍。

    “智能体优先”正在成为现实

    以前的产品逻辑是:做一个应用,用户打开应用,在应用里完成操作。现在的逻辑正在变成:智能体在后台跑,用户只在需要的时候才介入。收件箱、日历、待办列表——这些”控制台”式的界面,存在的必要性正在被质疑。

    另一个是独立AI邮件工具的生存空间问题。Notion有智能体底层,可以顺势把邮件功能整合进去。但那些专门做AI邮件的工具呢?Superhuman还在坚持做”更快的邮件体验”,但它最近收购了GPTZero——一个用来检测AI生成内容的工具。这个动作本身就在说明,Superhuman也在重新思考自己的定位。


    AgentMail的思路更激进:它要做”给智能体用的邮件服务”,人类用户不是目标用户。这个方向跟Notion Mail的关闭其实是一回事——邮件作为人类直接操作的界面,价值正在缩水。

    从更大的视角看,这件事不只是邮件客户端的问题。AI智能体正在逐步接管用户在各个应用里的操作。记事本、日历、项目管理工具——这些工具的”入口”属性都在被削弱。用户跟系统的交互方式,从”打开应用-操作-关闭应用”,变成”告诉智能体想要什么-智能体搞定”。

    这个转变对创业公司的启示很直接:做一个好用的独立应用仍然有价值,但更重要的可能是,你的产品能不能被智能体调用。能被智能体整合的工具,比不能被整合的工具活得久。

    Notion Mail的关闭不是第一个,也不会是最后一个。AI智能体对软件形态的重塑,才刚刚开始。

  • Voicebox:开源AI语音工作室,本地替代ElevenLabs+WisprFlow,34K+Stars让AI开口说话

    Voicebox:开源AI语音工作室,本地替代ElevenLabs+WisprFlow,34K+Stars让AI开口说话

    🎙️ Voicebox:开源 AI 语音工作室

    免费替代 ElevenLabs + WisprFlow 的全栈 AI 语音解决方案,34K+ Stars,MIT 许可

    34K+
    GitHub Stars
    7种
    TTS 引擎
    23
    支持语言
    500+
    开发者
    关注者
    MIT
    开源许可

    📌 项目简介

    Voicebox 是一个开源的 AI 语音工作室,由独立开发者 jamiepine 打造,旨在提供完全本地运行的 AI 语音解决方案。它将”语音生成(替代 ElevenLabs)”和”语音输入(替代 WisprFlow)”二合一,所有模型和数据完全在本地运行,无需上传云端,是隐私优先的 AI 语音工具首选。

    项目基于 Tauri (Rust) 桌面端 + React/TypeScript 前端 + FastAPI Python 后端架构,支持 macOS、Windows 和 Docker 部署,内置 7 种 TTS 引擎、Whisper STT、本地 Qwen3 LLM,并原生支持 MCP 协议,让 AI 智能体也能”开口说话”。

    ⚙️ 安装要求和过程

    环境要求

    • macOS:Apple Silicon (M1+) 或 Intel Mac,推荐 16GB 内存
    • Windows:Windows 10+,支持 CUDA GPU 加速(NVIDIA)或 DirectML(任意 GPU)
    • Linux:从源码构建,支持 CUDA/ROCm GPU 加速
    • 通用:Python 3.11+,Rust(开发构建),Bun (JS 运行时)

    快速安装(预编译包)

    # macOS (Apple Silicon)
    curl -L https://voicebox.sh/download/mac-arm -o Voicebox.dmg

    # macOS (Intel)
    curl -L https://voicebox.sh/download/mac-intel -o Voicebox.dmg

    # Windows
    # 下载 MSI:https://voicebox.sh/download/windows

    # Docker 一键启动
    git clone https://github.com/jamiepine/voicebox.git
    cd voicebox
    docker compose up

    从源码开发构建

    # 克隆仓库
    git clone https://github.com/jamiepine/voicebox.git
    cd voicebox

    # 安装 just 命令工具(任务运行器)
    brew install just # macOS
    # 或 cargo install just

    # 一键安装依赖并启动开发服务器
    just setup
    just dev

    # 构建生产版本
    just build # CPU 版本
    just build-local # Windows + CUDA 版本

    🌟 核心功能

    🎤 7 种 TTS 引擎,覆盖全场景

    Voicebox 集成了 7 种开源 TTS 引擎,从超轻量的 Kokoro (82M) 到高质量的 HumeAI TADA (3B),满足不同场景需求:

    引擎 语言数 模型大小 核心优势
    Qwen3-TTS 10 0.6B/1.7B 高质量多语言克隆,支持发音指令
    Chatterbox Multilingual 23 ~1GB 语言覆盖最广,支持阿拉伯语/芬兰语等
    Chatterbox Turbo 英语 350M 超快速度,支持 [laugh]/[sigh] 表情标签
    Kokoro 8 82M 极小模型,CPU 实时 10x+ 速度
    LuxTTS 英语 ~1GB 48kHz 输出,CPU 150x 实时速度
    HumeAI TADA 10 1B/3B 语音语言模型,支持 700s+ 连贯音频
    Qwen CustomVoice 10 自然语言控制发音,无需参考音频

    🗣️ 语音克隆 + 无限长度生成

    支持从几秒音频进行零样本语音克隆,同时内置 Kokoro 和 Qwen CustomVoice 的 50+ 精选预设语音。独创”无限长度生成”机制——自动按句子拆分文本,分块生成后交叉淡入淡出拼接,最大支持 50,000 字符的文本输入,彻底打破 TTS 长度限制。

    🎧 全局语音输入(Dictation)

    支持全局热键语音输入,macOS 支持自动粘贴到当前文本框(按住说话/切换模式)。内置 Whisper STT,支持可选 LLM 优化去除口癖、停顿,让语音输入更流畅自然。相当于开源版的 WisprFlow!

    🤖 AI 智能体语音输出(MCP 支持)

    内置本地 MCP 服务器,支持 Claude Code、Cursor、Cline 等 AI 编程助手通过 voicebox.speak 工具调用,让 AI 智能体用克隆的语音”开口说话”。支持为不同智能体绑定不同语音,实现个性化语音输出。

    # Claude Code 一键配置 MCP
    claude mcp add voicebox –transport http –url http://127.0.0.1:17493/mcp –header “X-Voicebox-Client-Id: claude-code”

    🎬 语音故事编辑器 + 音频后处理

    内置多轨道时间线编辑器,支持对话、播客、叙事内容制作,支持拖拽、音频裁剪、同步播放。基于 Spotify pedalboard 库提供 8 种音频后处理效果(音调偏移、混响、延迟、合唱、压缩等),并内置”机器人”、”电台”、”回声室”、”低音”4 种预设效果链。

    💡 典型使用场景

    场景一:AI 编程助手语音通知

    长时间运行的编程任务(如模型训练、测试套件)完成后,通过 Voicebox MCP 集成,让 Claude Code 或 Cursor 用你喜欢的语音播报结果:”测试全部通过,共 42 个用例,耗时 3 分 12 秒”。不用盯着屏幕,声音告诉你进度!

    场景二:多语言内容创作

    使用 Chatterbox Multilingual 引擎(支持 23 种语言),配合语音克隆功能,内容创作者可以用自己(或任何)的声音生成多语言版本的视频配音、播客内容。Qwen3-TTS 还支持输入发音指令(如”慢点说”、”小声说”),让生成语音更自然。

    场景三:本地隐私优先的语音输入替代

    替代 WisprFlow 等云端语音输入工具,所有语音识别和转录均在本地运行(Whisper STT),语音数据不上传任何云端服务器。对隐私敏感的用户、企业内网环境,或者需要离线使用的场景,Voicebox 是最佳选择。

    💬 推荐理由

    为什么推荐 Voicebox?

    1. 隐私优先,本地全栈。模型、语音数据、录音内容完全本地存储,不依赖任何云服务。对于关注数据隐私的开发者来说,这一点至关重要。

    2. 二合一解决方案。一个工具同时替代 ElevenLabs(语音生成)和 WisprFlow(语音输入),不需要订阅两个服务,省心省钱。

    3. 引擎覆盖全面。7 种 TTS 引擎从 82M 到 3B 参数,从 CPU 到 GPU 加速,从英语到 23 种语言,几乎覆盖了所有使用场景。

    4. MCP 原生支持。AI 智能体生态正在爆发,Voicebox 率先支持 MCP 协议,让 AI 智能体具备语音输出能力,这在开源项目中非常前瞻。

    5. 活跃开发中。485 个开放 Issues 说明社区非常活跃,项目在快速迭代。MIT 许可允许自由修改和分发,适合二次开发。

    个人使用感受:Voicebox 的 MCP 集成体验非常顺滑,配置一次后,Claude Code 就能直接调用语音输出。用它来做长时间编程任务的语音通知,比盯着终端看进度条优雅太多。唯一的小遗憾是 Linux 目前还没有预编译包,需要自己从源码构建。

    📥 下载地址

    项目信息:
    ⭐ GitHub Stars: 34,192
    📜 开源许可: MIT License
    💻 技术栈: Tauri (Rust) + React/TypeScript + FastAPI (Python)
    🌐 官网: voicebox.sh
    📦 Docker: docker compose up
    最近更新: 2026 年 6 月

  • AI智能体要上线,先在一个人造世界里被折磨一遍——Patronus AI的生意经

    Patronus AI数字世界测试AI智能体
    图片来源:AI生成概念图

    AI智能体越来越能干,从回答问题到自主执行多步骤复杂任务,进展快得让人有点慌。但有一个问题一直没被很好解决:你怎么在智能体上线之前,确信它在各种奇怪场景下都不会搞砸?

    Benchmark分数再高,也不等于真实世界能用。这就是Patronus AI在做的事情——他们给AI智能体造”数字世界”,让智能体在里面被压力测试,直到开发者有信心把它放出来。

    两个前Meta AI研究员,盯上了AI安全测试这个坑

    Patronus AI成立于2023年,创始人是两位前Meta AI研究员Anand Kannappan和Rebecca Qian。他们的判断很直接:AI实验室用来展示实力的benchmark,跟智能体真实表现之间的关系,远没有大家以为的那么紧密。一个智能体在benchmark上拿了高分,放到真实环境里可能犯一些你完全没预料到的错误——而且它犯错了你还可能不知道。

    Patronus的做法是造”数字世界模型”——把网站和内部系统做成可交互的仿真环境,让智能体在里面跑,用强化学习的方式迭代:做对了给奖励,做错了罚。这个过程可以跑很久,Kannappan说他们想让智能体在环境里跑10小时、10天甚至10周。

    他们拿Waymo做类比:Waymo在真实道路上测试之前,先用合成世界模拟了无数种极端场景——暴雨、小孩追球冲上马路——这些在真实世界里可能几年才碰到一次,但在仿真里可以批量生成。

    智能体最擅长的事,是走捷径

    Patronus的投资方Notable Capital的Glenn Solomon说了一句话很到位:智能体最擅长的事,是走捷径。它们会找到一种表面上完成任务、实际上偷工减料的方式,然后你就以为它工作了。Patronus的价值就在于能发现这些”hack”,逼模型真正把任务做对。

    目前他们主攻软件和金融科技这两个方向。选这两个领域不是偶然的:任务是否完成是可以被验证的(verifiable),你跑一段代码看能不能编译、下一笔单看账户余额对不对,都是有客观标准的。Kannappan说,那些”很难验证”的领域(比如创意写作、开放式对话)他们暂时还没碰。

    营收一年涨15倍,几乎每个前沿AI实验室都是客户

    这种需求有多旺盛?Patronus的营收过去一年涨了15倍。这轮5000万美元的B轮由Greenfield Partners领投,Notable Capital、Lightspeed、Datadog、三星跟投。加上之前的融资,总共融了7000万美元。

    Solomon说,几乎所有前沿AI实验室和很多AI创业公司都是他们的客户,需求几乎吃不饱。这个数字听着夸张,但想想现在每家做AI智能体的公司都面临同一个问题:怎么向上面交差,证明自家的智能体”可靠”?如果这个需求是真实的,Patronus确实踩在了正确的时间点。

    竞争对手方面,Patronus主要不是在跟另一家公司抢客户,而是在跟AI实验室自己的内部评估团队抢。每家AI大厂其实都在做自己的测试框架,只是做得够不够好另说。另外一些人肉数据公司(比如Mercor和Surge)也在做跟强化学习相关的数据服务,但Patronus的区别是”不需要人参与”——评估过程完全自动化。


  • Claude正在从ChatGPT手里抢付费用户,这件事比看起来有意思得多

    Claude与ChatGPT竞争付费用户
    图片来源:AI生成概念图

    过去一年,如果你问一个普通人”你用哪个AI助手”,十有八九会听到”ChatGPT”。这个认知优势太大了,OpenAI几乎把”AI助手”这个品类变成了自己的代名词。但事情正在起变化——而且变化的方式,可能连Anthropic自己都没完全预料到。

    信用卡交易分析公司Indagari刚放出一组数据,看了会让人重新思考”AI消费者市场”这个词的真正含义。他们分析了2800万美国消费者的匿名信用卡交易,时间跨度从2025年到2026年5月10日。数据不能告诉你Anthropic exact营收是多少,但足以看清趋势——而趋势是:Claude的付费用户和收入,逐月增长,2026年1月以来涨了大约75%。

    三月那一波增长,背后有个意想不到的原因

    有意思的是,三月份Claude付费用户曾经出现过一波 spikes——而那波增长的触发事件,是Anthropic公开拒绝让自家的模型被特朗普政府用于对美国人的大规模监控和自主武器。这件事在消费者端激起的反响,比任何营销活动都管用。

    通常情况下,跟政府对着干会让一家公司丢掉客户。但Anthropic的情况似乎相反——消费者用钱包投了票,告诉他们”继续这样做”。这件事本身值得写一篇文章,但这里先说数据。

    DataCamp上的搜索数据更夸张

    在线教育平台DataCamp(约2000万用户)提供另一个角度的佐证。今年开始,”Claude”成了他们网站上被搜索次数最多的词——比”AI”这个词本身还多。而在自学消费者中,Claude课程的需求量是ChatGPT的三倍。过去30天里,Claude课程的需求涨了18倍。

    这个数据读起来有点反直觉。ChatGPT在企业培训市场仍然遥遥领先,毕竟大多数公司采购的是ChatGPT Enterprise。但个人消费者——那些自己掏腰包付订阅的人——正在用行动表明他们更喜欢Claude。

    一个合理的解释是:Claude在编程、写作、分析等长文本任务上的体验,让一批”重度用户”彻底转了阵营。这群人愿意付钱,而且付得不少。

    当然,把ChatGPT拉下马还早得很。Sensor Tower的数据清清楚楚:ChatGPT的体量仍然大得多,只是最近增长没那么猛了(部分原因是基数已经太大)。Indagari的数据也显示ChatGPT的付费用户绝对数更多。但Claude在”消费者付费意愿”这个维度上的追赶速度,已经快到让OpenAI不能忽视。

    IPO前夕,这份数据来得正是时候

    Anthropic和OpenAI都在准备上市。在这个时间点上,能拿出一份”消费者端也在增长”的数据,对Anthropic的估值故事很重要。此前Anthropic给外界的印象是”企业级AI”和”开发者工具”(Claude Code确实很强),消费者市场似乎不是他们的主战场。现在看来,这个叙事需要更新了。

    不过也有个阴影笼罩着这份增长数据。本月早些时候,美国政府对Anthropic出了狠招——禁止其最强的网络安全模型Mythos 5和Fable 5被非美国人使用,Anthropic干脆把这两个模型暂时从市场上撤了下来。这件事对国际用户的影响有多大、会否拖累增长,目前还没有数据。但到目前为止,能看到的每一份数据都显示Anthropic还在涨。


  • 估值23亿美元,这家公司用电子游戏训练能走进现实的AI智能体

    走进General Intuition纽约办公室的研发区,31岁的联合创始人兼CEO Pim de Witte让你看一台显示器。屏幕上有人在玩类似Fortnite的游戏。仔细一看,操控角色的不是一个真人。

    “我们的agent已经连续玩了100个小时。”公司首席产品官Kent Rollins笑着说。

    还没从这个画面里回过神,就听到电子脚步声逼近——一台大型四足机器人走了过来。

    AI智能体游戏训练概念图
    从游戏训练到真实世界的AI智能体 | 图:AI生成

    同一个大脑,游戏和现实都能用

    de Witte说:”驱动那个游戏agent的同一个大脑,现在也在驱动这台机器人。”

    机器人走到你面前,绕了一圈,继续往办公室深处走。偶尔会撞到椅子腿或者垃圾桶,像一个还没搞清楚身体怎么运作的小孩。数据工程师Josh Duplantis说,这台四足机器人只用了8分钟的真实世界数据就完成了模型微调——而且这些数据是在街上采集的,不是办公室里。

    这就是General Intuition要做的事:一个能在游戏、模拟环境和真实世界之间通用的智能体模型。

    我们有一个单一模型,既能响应Fortnite屏幕上的信息并采取行动,也能理解真实世界的动态,这是大语言模型做不到的。

    23亿美元估值的底气

    本周,公司确认完成3.2亿美元新一轮融资,估值23亿美元。本轮由Khosla Ventures领投,Jeff Bezos、Eric Schmidt、尼科·罗斯伯格均参与,DeepMind和MIT的研究人员也以个人身份跟投。General Intuition累计融资已达4.54亿美元。

    de Witte的上一家公司叫Medal,是一个游戏视频剪辑分享平台。上面有数百亿小时的游戏录像——但这还不是最关键的。Medal的录像里带有操作记录:玩家在什么时间点按了什么键。de Witte认为,这种”动作标签”才是训练空间推理能力的关键数据,光看视频是不够的。

    “这是一个单一模型,既能响应Fortnite屏幕上的信息并采取行动,也能理解真实世界的动态,这是大语言模型做不到的。”de Witte说。

    世界模型是”健身房”

    公司有一个”世界模型”,是一个逐帧生成的模拟环境(不是传统游戏引擎渲染的)。在这个环境里测试时,agent不会穿墙——它从数百亿小时的游戏画面里学会了墙是墙、梯子是用来爬的。

    这个世界模型不是最终产品,而是训练环境(公司内部叫它”健身房”)。General Intuition真正想卖的是智能体模型本身。

    大部分融资将用于扩大算力。General Intuition跟CoreWeave签了合作协议,重点放在下一版模型的预训练上。到今年夏末,他们的API会对更多开发者开放。

    欧洲人的AI伦理

    Khosla Ventures的Vinod Khosla说,他押注de Witte的愿景。”在大语言模型里,推理能力的出现是一个量子跃迁。在世界模型里,量子跃迁是AI直觉能力的出现。游戏里的人类动作和反应数据,是这种直觉出现的关键。”

    de Witte是荷兰人,团队很大一部分是欧洲人。他对硅谷把AI军事化的倾向保持距离,明确说不会把agent用于伤害人类的目的。”如果说我跑出来说我们要做致命自主武器,你觉得其他国家会怎么做?”他说。

    他还做了一个叫Nerve的平台,让游戏玩家通过数据标注、机器人远程操控等任务赚钱。Medal的用户恰好是最容易被AI冲击的一代人,de Witte想让他们在接下来的事情里有份。

    从游戏画面到真实世界,这条路能不能在规模上成立,目前还没有人完全回答。但General Intuition已经把筹码压上去了。


  • Databricks前AI负责人创业:用振荡器架构把AI电费砍到千分之一

    AI最烧钱的不只是显卡,还有电费。训练一次大模型,数据中心消耗的电够一个小城市用一天。推理规模上去之后,这笔运营成本更是惊人。

    Naveen Rao见过这笔账。他曾任Databricks的AI负责人,现在出来创业,公司名叫Unconventional AI。他们的目标听起来像吹牛:把AI推理的功耗降低1000倍。

    用的不是更先进的芯片制程,而是一套完全不同的计算机架构——基于振荡器的计算方式。

    未来感AI芯片架构概念图
    Unconventional AI的振荡器架构概念图 | 图:AI生成

    一声”hello world”

    本周,Unconventional发布了第一个AI模型Un-0,一个图像生成工具。输出质量跟Stable Diffusion、OpenAI的GPT Image 1相当,但底层计算方式完全不一样。公司在论文里说,他们用软件模拟了振荡器芯片架构,在上面跑通了完整的图像生成模型,性能不输当前最先进的扩散模型。

    Rao跟TechCrunch说:”这是新型计算机的一声’hello world’。接下来一年,你会看到一些相当有意思的消息。”

    振荡器架构简单说就是用电子振荡器的物理特性做计算,而非传统晶体管的开关逻辑。这个想法在神经形态计算领域已经存在多年,但做出跟主流AI模型兼容的实用系统,Unconventional可能是第一家。

    AI scaling难,因为能源就摆在那里。这会是未来几年的根本限制,你绕不过去,归根结底是个能源受限的问题。

    50人的团队,1000倍的野心

    当然,Un-0目前还跑在软件模拟器上。真实芯片的设计图很快就会公开。公司的计划是:先开源芯片设计,然后自己搭完整的推理栈——芯片、系统、算力供应一条龙。

    Rao说:”我们会用我们的芯片搭建一套新系统,在上面跑AI模型。提示词从网线进来,推理结果从那边出去——但耗电量只有现在的千分之一。”

    这家公司目前不到50个人。从论文和软件模拟器到真实可用的芯片系统,中间隔着的东西太多了。但Rao不是随便说说的人——Databricks的AI业务是他亲手带起来的。

    如果Unconventional真的能做到他们声称的事情,整个AI数据中心的经济账就要重算了。全球在AI基础设施上的投入以千亿美金计,电费是其中越来越大的一笔。把这笔成本砍掉99.9%,意味着什么不言而喻。

    接下来一年,真实硬件会出来。到时候就知道,这个1000倍是营销话术还是真的。