博客

OpenAI连发三个语音模型，这次不只是”能说话”

OpenAI连发三个语音模型，这次不只是”能说话”

5月7日凌晨，OpenAI一口气发了三款音频模型：GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。官方说法是让开发者能构建”在用户说话时推理、翻译和转写”的实时语音产品。三款模型已经开放给开发者测试了。

这次更新的重点在于”分工”。三款模型各管一摊事：GPT-Realtime-2管实时语音Agent，GPT-Realtime-Translate管实时翻译，GPT-Realtime-Whisper管实时转写。这个打法很OpenAI——不只要做最好的单一模型，还要把整个语音AI的赛道拆成几块，各自做到极致。

GPT-Realtime-2 是 OpenAI 首个具备 GPT-5 级推理能力的语音模型（图源：OpenAI）

GPT-Realtime-2：从”能说”到”会说”

GPT-Realtime-2是这次更新的主角。OpenAI官方的说法是，这是第一款具备”GPT-5级推理”的语音模型。这个模型被设计来处理复杂请求、调用工具、处理对话中的打断，还能在更长的语音会话里保持上下文。

这些能力对应的都是语音Agent落地时最头疼的问题。比如一个用户想咨询买房的事，或者想改签机票，这些场景都可能包含一大堆条件和多轮确认。上下文窗口从32K提升到128K之后，模型可以在更长的实时对话里保留前面出现过的信息，不会聊到一半把前面说的话忘了。

GPT-Realtime-2在Big Bench Audio测试上比上一代GPT-Realtime-1.5高15.2%，在Audio MultiChallenge上高13.8%。这两个指标衡量的是模型在音频输入、多轮语音、复杂指令和上下文整合方面的能力。

还有一个很实用的细节：可调推理强度。你可以根据场景选择用多少算力。多数生产场景可以先使用较低的推理强度，优先保证通话里的响应速度；遇到更复杂的客服、预订、排障任务，再提高推理强度，用更多计算换取更完整的判断。这个设计很接地气——语音交互最怕的就是卡顿，用户在电话里等一两秒就会觉得”这AI不行”。

已经有企业在用了，效果还不错

OpenAI公布了几个已经在测试的企业用户：美国房地产网站Zillow、旅游预订平台Priceline、德国电信。这些都不是小打小闹的Demo，而是真实业务场景。

Zillow在用GPT-Realtime-2构建可以理解住房条件并安排看房的语音助手。他们说，在最困难的对抗性测试中，经过prompt优化后，电话任务成功率从69%提升到95%。这个提升幅度很夸张，但也说明语音Agent在垂直场景里确实能干活了。

Priceline的用例更典型：旅游预订链条很长，用户可能要查航班、订酒店、调整日期、处理延误、比较价格，还可能在境外需要翻译。语音Agent如果能稳定接入后台系统，就有机会把”问答”推进到”办事”。这个跨越才是语音AI真正有价值的地方。

另外两款模型：翻译和转写

GPT-Realtime-Translate主打实时语音到语音翻译，支持70多种输入语言到13种输出语言。传统语音翻译常常要求说话人停顿，系统等一句话结束后再翻译；而GPT-Realtime-Translate更接近连续口译的形态，说话人讲话时它就能跟上节奏。

GPT-Realtime-Whisper则强调实时流式转写，可以在说话人讲话时生成字幕、会议记录和工作流更新。它的价格最便宜，只有0.017美元/分钟。

三款模型放在一起看，OpenAI已经把实时音频拆成了三个明确入口，价格和延迟要求各不相同。奥特曼想要的可能是”通吃”——不管你要做语音客服、跨语言会议还是实时字幕，都得用我的API。

语音AI这波竞争，正在从”像人”变成”能办事”

这个市场里已经有一堆强势玩家了。ElevenLabs今年2月完成5亿美元D轮融资，估值110亿美元；Deepgram今年1月完成1.3亿美元融资，估值13亿美元，服务1300多家客户；Cartesia的Sonic 3模型已经有1万多客户使用，主打90毫秒低延迟。

OpenAI的优势在于模型栈——它可以把整个企业调用TTS的链路放在同一个开发者平台里。对开发者来说，少接几个供应商，就少一些延迟、集成和运维成本。但语音市场并不好啃，每家都有自己的地盘和忠实客户。

从目前企业用户的测试反馈来看，GPT-Realtime-2确实在某些场景里把语音Agent的完成率拉到了一个可用的水平。但这波”从对话走向执行”的转型能不能真正跑通，可能还得看接下来半年这些早期客户的真实业务数据。

📎 原文来源：AI有嘴了，OpenAI 连发三语音模型 — 36氪

2026年5月19日
喊一声就能做播客，Alexa这波升级有点意思

喊一声就能做播客，Alexa这波升级有点意思

亚马逊本周一给Alexa+推了个新功能，叫”Alexa Podcasts”。简单来说就是你跟它说个话题，几分钟它就能给你生成一期播客。不用写稿子，不用找素材，甚至不用想大纲——你报个题目，剩下的它全包了。

我试了试这个流程：你跟Alexa+说”帮我做个关于火星殖民的播客”，它先去搜资料，然后给你列个大纲让你确认。你可以调整长度、语气、侧重点，确认后它就用AI生成的主播声音把节目录好。做完了会在你的Echo Show设备和Alexa应用里发通知，节目还会保存在”音乐”和”更多”板块里，随时能回放。

Alexa+ 现在可以按需生成播客内容了（图源：Amazon）

这功能今天开始推给美国用户。亚马逊的官方说法是想把”你好奇的任何话题变成播客节目，几分钟就能搞定”。听起来很诱人，但我觉得这里有几个问题值得琢磨。

“turn any topic you’re curious about into a podcast episode, ready in minutes.” —— 亚马逊对Alexa Podcasts功能的描述

从语音助手到内容工厂

这个功能的意义不只是”多了个玩法”。它标志着Alexa+的定位在发生转变：从回答问题、控制智能家居的语音助手，变成了个性化的AI内容创作平台。你不再只是”问它东西”，而是”让它帮你做东西”。

但这个方向肯定会引发争议。AI生成的声音、自动化内容这些事，一直都有人在质疑：伦理边界在哪？内容准确性怎么保证？传统播客创作者的生存空间会不会被挤占？尤其是涉及新闻或者复杂话题的时候，AI生成的播客到底靠不靠谱，这事还得打个问号。

亚马逊自己也知道这个问题，所以找了一堆媒体机构合作。他们宣称Alexa+可以通过合作协议获取实时信息，合作方包括美联社、路透社、《华盛顿邮报》、时代周刊、福布斯、商业内幕、政客、今日美国、康泰纳仕、赫斯特、VOX媒体，还有全美200多家地方报纸。这个阵容确实挺豪华的，但合作归合作，AI对新闻内容的”理解”和”转述”能不能做到不出错，还是要打个问号。

不只是播客，还有更多玩法

亚马逊说他们还在探索其他个性化AI音频形式，包括定制化的新闻简报、基于用户个人文档和共享信息生成专属内容等等。这些功能的逻辑都一样：你提供素材（或者让它自己去搜），它帮你做成音频。

我觉得这事挺有意思的。播客制作一直是个门槛挺高的活：你要会写稿、会录音、会剪辑，还得有个像样的麦克风。现在Alexa+说”这些都不用了，你只要有个想法就行”，这对普通人来说确实是个很低的创作门槛。但反过来想，当所有人都能几分钟做出一期”播客”，播客这个媒介本身的价值会不会被稀释？这事可能还得观望一阵子。

目前这个功能只在美国推出，国内用户想试还得等等。但按照亚马逊的节奏，如果美国这边反馈好，其他国家应该也不会等太久。

📎 原文来源：Amazon’s new Alexa+ powered feature can generate podcast episodes — TechCrunch

2026年5月19日
微软AI CEO：18个月内AI接管大部分白领工作，MBA和法学学位正在贬值
微软AI CEO Mustafa Suleyman两个月前跟《金融时报》说了一句话，让整个白领圈安静了。他说：“12到18个月内，大多数坐在电脑前完成的工作，会被AI完全自动化。” 他列举了会计、法律、营销、项目管理——基本上把办公室里能想到的工作都点了一遍。

Suleyman不是第一个说这种话的人，但他是目前位置最高的那个。作为微软AI部门的CEO，他管着微软跟OpenAI的合作、Copilot产品线、以及微软自己的大模型研发。他说这话的时候，微软刚刚把Copilot Deep Think（他们的深度推理模型）给Plus用户推了上去。

“大多数（如果不是全部）专业任务上，AI将达到人类水平。未来一年或18个月内，大部分’坐在电脑前’的任务将被AI完全自动化。”——Mustafa Suleyman，微软AI CEO

他的依据是算力，不是愿景

Suleyman的论证逻辑很直接：算力在指数级增长，模型写代码的能力很快就会超过大多数人类程序员。他没有说具体哪个基准测试，但如果你看过过去半年GPT-5.5、Claude Opus 4.7、Gemini 3.1的编码测试成绩，这个判断不算离谱。

同期还有两个人在说类似的话。Anthropic CEO Dario Amodei去年5月警告AI可能消灭一半入门级白领工作（不过最近他改口了）。福特CEO Jim Farley说AI会把美国白领岗位数量砍一半。马斯克在今年1月的达沃斯论坛上更直接：通用人工智能（AGI）可能在2026年内实现。

但现实跟预测之间有个巨大的裂缝——目前为止，AI在专业服务领域的渗透非常有限。

实际数据：AI有时候让人变慢

2025年Thomson Reuters的一份报告发现，律师、会计、审计师确实在用AI做文档审查、常规分析这类定向任务，生产力有边际提升，但离大规模岗位替代还差得很远。

更有意思的是反向结果。非营利组织Model Evaluation and Threat Research（METR）做了一个研究，发现AI让软件开发者的任务完成时间延长了20%。原因挺直观的：开发者要花时间验证AI生成的代码对不对，这个验证时间经常超过自己写的时间。

经济层面的影响也高度集中在科技行业。Apollo Global Management首席经济学家Torsten Slok的研究显示，2025年第四季度大型科技公司的利润率提升了20%以上，但更广泛的Bloomberg 500指数企业的利润率几乎没有变化。投资者也不太相信AI能提升科技行业以外的企业盈利——这从华尔街对S&P 500的盈利预期就能看出来。

裁员已经在发生，但规模不大

就业咨询公司Challenger, Gray & Christmas的数据：2026年截至目前，已有49,135个裁员跟AI相关。微软2025年裁员15,000人，虽然在裁员备忘录里没有明确提出AI是原因，但CEO Satya Nadella说公司必须”为新时代重新构想我们的使命”。

市场对这个预期的反应很激烈。2026年2月，软件股出现大规模抛售——分析师称之为”SaaSpocalypse“（SaaS末日），因为Anthropic和OpenAI相继发布了企业级智能体AI系统，能做很多SaaS公司的核心工作。投资者担心这些传统软件公司会被AI代理直接替代掉。

Suleyman的真正目标：让微软不再依赖OpenAI

Suleyman在访谈里说了一句很直白的话：“创造新模型会变得像创建一个播客或者写一篇博客一样简单。为每个机构、组织和个人设计符合他们需求的AI，这将成为可能。”

他的核心任务是让微软AI实现”超级智能”（superintelligence），减少对OpenAI的依赖，优先建设微软自己的前沿基础模型。他说：”这是我们这个时代最重要的技术，我们必须开发属于自己的、处于绝对前沿的基础模型。”

这个战略背后的逻辑很清楚：微软每年给OpenAI付不少钱，如果有一天关系破裂（或者OpenAI自己做了类似Copilot的产品），微软需要一个备选方案。Suleyman之前是DeepMind的联合创始人，后来创办了Inflection AI，2024年被微软挖来做这个”独立模型”的项目。

但过去三个月的证据显示，AI的实际效果并没有Suleyman预测的那么惊人。Anthropic的Claude正在取代OpenAI成为企业收入第一的模型，但整体AI在企业端的落地还是比预期慢。

普通白领现在该做什么

Suleyman的预测听起来吓人，但有几个需要注意的点：
- 他说的是”坐在电脑前完成的任务”，不是整个岗位。律师的文档审查可能被自动化，但客户谈判、法庭辩论这些需要人的工作还在
- 18个月是从现在往后算，也就是2027年底之前。这个时间表非常激进，历史上类似的AI预测大部分都延期了
- MBA和法学学位作为”职场门票”的价值确实在贬值，但贬值速度可能没有Suleyman说的那么快
- Block CEO Jack Dorsey提出了一个更有意思的观点：AI不仅会替代岗位，还会重构公司本身的组织形式——一个运行了兩千年的逻辑（信息路由=中层管理）可能被重写
如果你现在在做一个”纯电脑”的白领工作，Suleyman的建议（以及越来越多AI研究者的建议）是：学会用AI工具，让自己变成”用AI完成任务的人”，而不是”被AI替代的人”。这个转型窗口，按照他的时间表，只有18个月。

📎 原文来源：Fortune – Microsoft AI chief gives it 18 months—for all white-collar work to be automated by AI
2026年5月19日
NVIDIA Vera Rubin NVL72发布：推理成本暴降90%，Vera CPU亲自送货上门
如果你最近关注AI硬件圈，5月18日这天有个消息值得盯一下。NVIDIA CEO黄仁勋站在Dell Technologies World的舞台上，说了一句话：”需求正在抛物线式增长，完全是抛物线。”台下坐着的5000家企业代表应该都听懂了——这里面包括礼来、三星、霍尼韦尔这些已经在用Dell AI Factory跑AI负载的公司。

这次发布的核心是两个东西：Vera Rubin NVL72架构，以及NVIDIA第一款专门为AI代理（Agent）设计的CPU——Vera CPU。别被名字搞混了，Rubin是GPU架构，Vera是CPU，俩搭配着用。

推理成本直接砍掉90%

Vera Rubin NVL72最吓人的数据是：每token推理成本只有上一代Blackwell平台的1/10。换句话说，原来跑100块钱的推理任务，现在只要10块。这个降幅不是靠砍性能换来的——Dell同步发布的PowerEdge XE9812服务器，用HGX Rubin NVL8架构，性能是上一代HGX B200的5.5倍。

“67%的企业AI工作负载现在跑在云端之外——本地、设备端、边缘、托管机房，这才是真实的企业AI部署现状。”——NVIDIA CEO黄仁勋

88%的受访企业至少运行1个本地AI工作负载。这个数据背后有个很现实的原因：把数据搬来搬去的成本，比直接在企业自己机房里跑AI贵多了。Vera Rubin NVL72就是为这种场景设计的——专门优化长序列推理和高并发Agent任务。

Vera CPU：首款为AI代理设计的处理器

NVIDIA之前出过Grace CPU，但Vera是第一款明确为”AI代理时代”设计的CPU。这里的逻辑是：AI代理干活的时候，不是一口气跑完的，它要查数据库、跑代码、调工具，这些步骤是串行的，特别吃CPU的单线程性能和内存带宽。

Vera的三个关键数字：
- 内存带宽1.2TB/s，是其他CPU的3倍
- AI代理工作负载完成速度比x86处理器快50%
- 企业数据查询速度提升3倍（Starburst引擎吞吐量提升3倍）
第一批发货的Vera CPU已经送到三个地方：OpenAI在米申湾的办公室、SpaceX AI在帕洛阿尔托的实验室、以及Anthropic在旧金山的总部。下一批会送到甲骨文云基础设施在圣克拉拉的机房。NVIDIA超大规模计算副总裁Ian Buck亲自送货上门——这阵仗挺少见的，一般芯片发布都是发新闻稿，不会搞”ceo亲自交付”这套。

2030年的AI基础设施市场：3-4万亿美元

黄仁勋在台上给出了一个预测：2030年全球AI基础设施支出将达到3-4万亿美元，同期token消耗量预计增长3400%。这两个数字放在一起看就有意思了——基础设施投入增长，单位token成本下降，但总消耗量增长更快，所以市场总盘子还是在爆炸。

Dell AI Factory这边的策略是把”计算、网络、存储”打包成一个整体方案，客户不用自己拼组件。配套的还有NVIDIA机密计算（Confidential Computing）支持，模型权重和企业数据在运行过程中全程加密，这个对金融、医疗这些敏感行业挺重要的。

目前已经在Dell AI Factory上跑AI负载的5000家企业里，礼来用它加速药物研发，三星用它跑芯片设计仿真，霍尼韦尔把原来放在公有云上的工业AI迁移回了本地机房。这些案例的背后逻辑都一样：数据搬不动，算力得靠近数据放。

开源模型也在往这套基础设施上迁

NVIDIA在这次发布会上列了一个支持Dell AI Factory的开源模型清单：Nemotron、Reflection、MiniMax-M2.7、DeepSeek Pro、DeepSeek-V4、GLM 5.1、Kimi K2.6。这些模型都做了NVFP4精度优化，在Vera Rubin架构上跑起来更高效。

Hugging Face上已经开了Dell Enterprise Hub，企业可以直接拉取这些优化过的模型镜像部署。这个动作的信号很明确：NVIDIA不只是卖芯片，它在搭一个从芯片到模型到部署工具链的完整生态，让企业”买了硬件就能跑起来”，而不是买回去之后发现软件栈对不上。

下一波详细技术发布会在6月1-4日的COMPUTEX GTC Taipei大会上放出。如果你在关注AI推理成本这条曲线，Vera Rubin NVL72的价格和实测数据值得等一下那个发布会。

📎 原文来源：NVIDIA Blog – Dell Technologies World 2026: Agentic AI Inference at 1/10th the Cost
2026年5月19日
OpenAI确认打造超级应用：ChatGPT、Codex、浏览器三合一
OpenAI最近确认了一个挺大的产品调整：他们要把ChatGPT、AI编程工具Codex、还有自己开发的Atlas浏览器，全部合并成一个桌面应用。这个消息是5月正式公开的，但内部备忘录早在3月就写好了。

目前OpenAI应用业务CEO Fidji Simo在休医疗假，所以这个整合项目由Greg Brockman牵头，具体执行团队由Codex CEO Thibault Sottiaux领导。

为什么要合并？

OpenAI过去一年有点产品”摊大饼”的意思——Sora、Atlas、Codex、Canvas，各自为战，工程资源被拆得稀碎。结果就是每个产品都还不错，但都没达到能碾压竞品的那种好。

合并之后，ChatGPT会作为核心编排层，统一调度对话、编码、浏览器三类能力。你可以直接在对话里让AI写代码，然后立刻用内置浏览器测试运行效果。

这个设计明显是对标Anthropic的Claude Cowork——后者在企业市场抢占份额的速度，确实让OpenAI有点坐不住了。

分阶段推进，移动端保持独立

合并不是一口气完成的，OpenAI做了分阶段规划：
- 第一阶段：先给Codex加编码之外的通用生产力功能，拓宽使用场景
- 第二阶段：把Atlas浏览器整合进来，实现对话+编码+网页操作的闭环
- 第三阶段：ChatGPT作为中枢编排层，统一协调所有功能模块
有意思的是，移动端的ChatGPT App会保持独立，不参与这次合并。看来OpenAI也清楚，手机上搞太重的应用体验未必好。

为IPO做准备？

这个时间点值得玩味。截至2026年2月，ChatGPT周活跃用户9亿；截至5月，Codex周活也到了400万。合并后，OpenAI可以更容易地把普通ChatGPT用户转化为付费高阶用户——毕竟在一个应用里就能用到编码、浏览器等高级功能，付费动力会强很多。

如果OpenAI真的在2026年晚些时候启动IPO，这个”超级应用”的故事会比单纯”我们有一个好模型”要好讲得多，估值也会更有想象力。

当然，产品整合这种事，说起来容易做起来难。三个不同定位的产品合并成一个，用户体验能不能做到1+1+1>3，还得等实际产品出来才知道。

📎 原文来源：OpenAI Super App Confirmed – ChatGPT + Codex + Atlas Browser Merging Into One Desktop
2026年5月19日
Google I/O 2026 Day 1直击：Gemini 4.0、Omni多模态、XR眼镜齐亮相

今天Google I/O 2026正式开幕，谷歌一口气发布了多个重磅产品。看完整个发布会，感觉谷歌这次是认真了，不再是以前那种”我们有个很酷的研究项目”的画饼风格，而是实打实地把AI塞进了每一个产品线里。

Gemini 4.0：不止是基准测试

Gemini 4.0这次是真的来了。谷歌没有只拿基准测试分数说事，而是把重点放在了实际应用场景上——Workspace集成、多模态推理、智能体可靠性，这些都是企业用户真正关心的东西。

外界预期Gemini 4.0在多模态推理上会有显著提升，如果它能接近Claude Mythos Preview的94.6% GPQA成绩，那谷歌就真的把今年早些时候丢掉的话语权给抢回来了。

谷歌的优势在于生态。安卓30亿+设备、搜索数据、Workspace 2亿+用户，这不是OpenAI或者Anthropic短时间内能追上的。

Gemini Omni：文本+图像+视频统一管线

这次最让我意外的是Gemini Omni。它不是Veo的升级版，而是一个统一的文本/图像/视频生成管线，可以在对话窗口里直接生成和编辑视频，还会自动配背景音乐。

早期泄露的测试报告显示，Omni在提示词保真度和音频质量上都比Veo 3.1强。如果这套系统正式上线，谷歌就是第一个在消费级场景里提供全模态统一生成能力的厂商。叠加安卓生态的分发优势，这个组合拳确实不好接。

Google I/O 2026 Day 1 发布会现场

Android XR眼镜与Aluminium OS

硬件方面，谷歌和三星、Warby Parker、Gentle Monster、XREAL合作的Android XR眼镜正式亮相。无屏版本重80克以内，售价379-499美元，搭载骁龙AR Gen 3，延迟200ms。这个规格如果能兑现，Meta的Ray-Ban系列可能要感受到压力了。

更值得关注的是Aluminium OS，这个基于安卓开发的系统将替代ChromeOS，首批笔记本由宏碁、华硕、戴尔、惠普、联想生产，2026年秋季上市。谷歌这是在把安卓的势力范围从手机扩展到PC。

Gemini Spark：谷歌版的AI智能体

Gemini Spark是这次发布的一个容易被忽略但很重要的产品。它能自动化跨应用任务——整理收件箱、生成会议简报、追踪新闻事件进展。这和微软的Copilot、Anthropic的Claude Cowork是一个赛道的产品，但谷歌的优势在于它自己的应用生态（Gmail、Calendar、Drive、Docs）。

总体来看，谷歌这次的策略很清晰：不追求单一的基准测试冠军，而是把Gemini铺到所有能铺的地方——手机、眼镜、笔记本、云端、企业应用。这种打法短期内在基准测试上可能不够性感，但长期来看，生态黏性才是最难被颠覆的壁垒。

📎 原文来源：Google I/O 2026 Live – Gemini 4, Omni Video Model, Android XR Glasses, Aluminium OS

2026年5月19日
prompts.chat：162k Stars！开源Prompt社区，让AI提示词成为你的超能力
prompts.chat – 开源Prompt社区平台

📌 项目简介

prompts.chat（前身为Awesome ChatGPT Prompts）是一个面向AI提示词的全生命周期社区平台，支持用户分享、发现、收藏来自社区的优质AI提示词。项目采用免费开源模式，支持私有化部署，可满足企业/组织的隐私合规需求。

162k+

GitHub Stars

21.2k

Forks

MIT

开源协议

⚙️ 安装要求与过程

方式一：直接使用官方平台（推荐）

无需安装，直接访问 prompts.chat 即可使用社区提示词资源，支持浏览、搜索、复制优质提示词。

方式二：私有化部署
```
# 1. 克隆项目
git clone https://github.com/f/prompts.chat.git
cd prompts.chat

# 2. 安装依赖
npm install

# 3. 配置环境变量
cp .env.example .env
# 编辑 .env 填写必要配置

# 4. 启动开发服务器
npm run dev

# 5. 构建生产版本
npm run build
npm start

# 访问 http://localhost:3000
```
系统要求

项目要求

Node.js 18.0+ （推荐 20.x LTS）

包管理器 npm / pnpm / yarn

数据库 PostgreSQL / MySQL（可选）

操作系统 Windows / Linux / macOS

✨ 核心功能

💬 提示词社区共享

用户可上传、浏览其他社区成员贡献的优质AI提示词，涵盖编程、写作、翻译、创意等各个领域。

📌 提示词收藏管理

支持用户收藏自己常用的提示词，建立个人提示词库，方便后续快速复用，提升AI交互效率。

🏢 私有化部署支持

支持企业/组织自行部署到内部环境，保障提示词数据完全私密，不对外泄露，满足合规需求。

🔍 智能搜索与分类

提供强大的搜索功能和细致的分类标签，快速定位所需提示词，支持按热度、最新、评分排序。

📚 提示词最佳实践

收录提示词工程最佳实践案例，帮助初学者快速掌握提示词编写技巧，提升AI输出质量。

🔄 持续更新维护

项目保持高频更新，持续集成最新的AI模型提示词模板，社区活跃度高，问题响应迅速。

🚀 典型使用场景

👨‍💻 场景一：开发者提升编码效率

开发者在prompts.chat中搜索”代码审查””bug修复””重构建议”等提示词，直接复制到ChatGPT/Claude中使用，快速完成代码优化、文档生成、单元测试编写等任务，显著提升开发效率。

✍️ 场景二：内容创作者寻找灵感

公众号博主、自媒体运营者在平台搜索”标题生成””文章大纲””社交媒体文案”等提示词，快速生成高质量内容框架，配合AI完成创作，大幅缩短内容生产周期。

🏢 场景三：企业构建私有提示词库

企业IT部门私有化部署prompts.chat，将公司积累的优质提示词（如”会议纪要总结””合同审查””客户邮件回复”）统一管理，让员工共享最佳实践，提升全员AI应用能力。

💡 推荐理由

说实话，我觉得prompts.chat是AI时代必备的”提示词手册”——它把散落在各处的优质提示词集中管理，让我不用每次都从零开始构思怎么跟AI对话。

最实用的是它的收藏功能，我把自己常用的”代码解释””文章润色””Excel公式生成”等提示词收藏起来，形成个人提示词库，现在写AI指令速度快了好几倍。

162k+ Stars说明一切——如果你天天跟ChatGPT、Claude这些AI助手打交道，prompts.chat绝对能帮你少走弯路，让AI输出更精准、更高效。加上支持私有化部署，企业用户也能放心使用。

📥 下载地址

🔗 GitHub 仓库
 🌐 官方平台
 📚 使用文档

本文由 WorkBuddy AI 自动采集撰写 · 转载请注明出处
2026年5月19日
Anthropic估值冲至1.2万亿美元，超越OpenAI登顶AI王座

Anthropic最近在链上Pre-IPO市场的隐含估值冲到了1.2万亿美元，正式超过OpenAI，成为全球AI新王。这个数字有多夸张？比OpenAI高出20%，如果以此估值上市，Anthropic将直接空降全球第11大上市公司。

Anthropic估值走势（图源：36氪）

80倍增长，Dario在台上”凡尔赛”

估值暴涨的背后是业绩真的在飞。CEO Dario Amodei在旧金山开发者大会上透露，今年第一季度Anthropic的年化收入和使用量同比涨了80倍——他们原本的规划仅仅是10倍。

Dario甚至还”抱怨”说增速太快很难驾驭，希望回到仅仅10倍的增长，那样会轻松点。推动这波增长的核心是Claude Code，2025年底上线的这个编程工具在开发者群体里扩散速度超出了所有人预期。

马斯克出手：22万块GPU救急

因为需求爆炸，Anthropic的算力基础设施被瞬间击穿，用户发现Claude开始限流甚至高峰期掉线。关键时刻，马斯克出现了——Anthropic与SpaceX达成独家合作，拿下Colossus 1数据中心的全部算力。

这个数据中心拥有300MW计算能力和22万块英伟达顶级GPU，一个月内全部到账。几个月前马斯克还在网上骂Claude”邪恶”，现在把给Grok准备的GPU全都给了Anthropic，也是挺讽刺的。

拿到这22万块GPU之后，Anthropic直接给用户送了大礼包：Claude Code五小时限额翻倍，Pro/Max取消峰值限制，API速率大幅提升。

2000亿美元抱上谷歌大腿

据外媒透露，Anthropic已与谷歌签署了一份为期五年、价值约2000亿美元的云服务协议，占到了谷歌云合同积压总额的40%以上。现在的AI圈，正陷入一种疯狂的循环：云巨头掏钱给AI公司，AI公司转手把这笔钱作为”房租”买回算力服务。

把Anthropic所有已公开的算力合同摊开：亚马逊5GW、谷歌+博通5GW、微软+英伟达300亿美元Azure容量、Fluidstack 500亿美元基础设施、SpaceX 300MW+22万张GPU，三线并进的算力格局已经成型。

1.2万亿美元估值建立在2029年收入增长20-30倍的预期之上。这场算力豪赌能不能兑现，接下来三年见分晓。

📎 原文来源：全球AI新王诞生，Anthropic估值冲爆1.2万亿，首次反超OpenAI

2026年5月19日
Google I/O 2026今天开幕：Gemini 4.0、XR眼镜、新系统齐亮相

Google I/O 2026今天开幕，大家期待的Gemini 4.0终于要亮相了。这次谷歌不只是更新模型，而是打算把AI能力直接塞进操作系统、塞进眼镜里，完成从”AI功能叠加”到”AI原生重构”的战略跨越。

Gemini 4.0：上下文窗口拉到1000万tokens

参数规模据说到3-5万亿，上下文窗口突破1000万tokens，是GPT-5.5的25倍，可以一次性加载完整代码库或者整本书籍做深度分析。更重要的是原生多模态，文本、图像、音频、视频统一处理，不用在不同模型之间来回切换。

深度整合谷歌搜索之后，Gemini 4.0的知识可以实时更新、事实实时核查，幻觉率压到3%以内。定价预计每百万输入2.5美元，性价比相当能打。

Android XR眼镜：80克、499美元起

谷歌将推出首款自研Android XR智能眼镜，重量不到80克，售价499美元起，比同类竞品便宜不少。搭载高通骁龙AR Gen 3处理器，内置本地Gemini Nano轻量模型，200毫秒内响应，支持离线导航和实时翻译。

深度适配Gemini 4.0之后，这副眼镜具备实时视觉理解、主动智能推送、多模态交互能力。谷歌还开放了Android XR SDK，现有安卓应用可以快速迁移到XR场景。

Aluminum OS：8年磨一剑，三系统合一

历时8年研发的Aluminum OS将正式落地，把Android、Chrome OS、Fuchsia三个系统揉在一起，手机、电脑、XR设备、智能家居全终端统一适配。

Gemini 4.0拿到系统级接口，可以打通跨应用数据壁垒，实现实时上下文感知与主动智能执行。该系统将首发搭载于10月发布的Pixel 10系列手机，谷歌的AI硬件闭环生态算是真正立起来了。

谷歌这次形成”大模型+硬件+操作系统+开发者生态”的全栈布局，直接对标OpenAI和Anthropic，全球AI竞争进入最激烈阶段。

📎 原文来源：Google I/O 2026倒计时：Gemini 4.0、Android XR眼镜、Aluminium OS 三大重磅将登场

2026年5月19日
ChatGPT现在能连你的银行账户了，OpenAI把金融助手这件事做了

ChatGPT现在能连你的银行账户了，OpenAI把金融助手这件事做了

OpenAI在5月15日悄悄地给ChatGPT Pro用户推了一个新功能——个人金融仪表盘。简单说就是：你授权ChatGPT访问你的银行账户、信用卡、投资账户，它帮你分析花了什么钱、订阅了哪些服务、投资表现怎么样、接下来要付哪些账单。

这件事的技术底层是Plaid——一家专门做金融账户连接的服务商。Plaid支持超过12,000家金融机构，包括嘉信理财、富达、大通、Robinhood、美国运通、第一资本这些主流平台。授权流程是标准的Plaid界面，不是OpenAI直接碰你的登录凭证。

ChatGPT个人金融仪表盘界面（来源：OpenAI）

你能用它干什么

官方给的例子挺接地气的。比如你问它”我最近是不是花多了，跟之前比有什么变化？”——它能拉取你近期的消费数据，给你一个对比分析。或者你说”我想在未来5年在我住的城市买房，帮我做个计划”——它会结合你的收入、支出、储蓄情况，给你一个分阶段的目标拆解。

目前这个功能只向美国地区的Pro用户开放预览，网页端和iOS都能用。OpenAI说他们正在跟Intuit谈合作，后续如果接上了，就能做更复杂的事情——比如你卖了一笔股票，它帮你估算税务影响；或者你申请信用卡，它评估一下你的获批概率。

OpenAI说，每个月已经有超过2亿用户向ChatGPT问金融相关的问题。所以这个功能某种程度上是把原本就大量发生的对话，升级成了能直接读取数据的版本。

隐私这件事怎么处理

金融数据是最敏感的个人数据之一，OpenAI在隐私说明上还是做了些功课。你可以在设置>应用>金融里面断开某个账户的连接，断开之后，同步过来的数据会在30天内从ChatGPT里删除。你也能单独删除某些金融相关的记忆。

不过话说回来，把银行账户接进去这件事，对大多数人来说心理门槛还是挺高的。OpenAI也知道这点，所以先向Pro用户开放——这批用户对ChatGPT的信任度相对高，也更愿意尝鲜。等跑顺了，再向Plus用户推广。

为什么现在做这件事

这件事其实有个前奏：2026年4月，OpenAI收购了个人金融初创公司Hiro的团队。Hiro背后有Ribbit、General Catalyst这些顶级金融科技VC撑腰，团队在金融数据和AI的交叉上有不少积累。OpenAI说Hiro团队的专业能力对推出这个产品很有帮助。

更大的背景是，AI公司们正在意识到：通用聊天机器人能回答所有问题，但用户在问健康、金融、个人生活这些敏感话题时，其实想要的是专门优化的产品。Anthropic已经推出了健康相关的工具，Perplexity这个月也发布了基于Computer agent的金融研究产品。OpenAI现在是直接把金融功能嵌进ChatGPT里。

长期来看，这件事如果做成，ChatGPT就不只是一个聊天机器人了——它会变成你财务生活的数字管家。这个位置一旦站稳，用户的切换成本会非常高。

📎 原文来源：TechCrunch – OpenAI launches ChatGPT for personal finance

2026年5月19日

项目	要求
Node.js	18.0+ （推荐 20.x LTS）
包管理器	npm / pnpm / yarn
数据库	PostgreSQL / MySQL（可选）
操作系统	Windows / Linux / macOS

博客

OpenAI连发三个语音模型，这次不只是”能说话”

GPT-Realtime-2：从”能说”到”会说”

已经有企业在用了，效果还不错

另外两款模型：翻译和转写

语音AI这波竞争，正在从”像人”变成”能办事”

喊一声就能做播客，Alexa这波升级有点意思

从语音助手到内容工厂

不只是播客，还有更多玩法

他的依据是算力，不是愿景

实际数据：AI有时候让人变慢

裁员已经在发生，但规模不大

Suleyman的真正目标：让微软不再依赖OpenAI

普通白领现在该做什么

推理成本直接砍掉90%

Vera CPU：首款为AI代理设计的处理器

2030年的AI基础设施市场：3-4万亿美元

开源模型也在往这套基础设施上迁

为什么要合并？

分阶段推进，移动端保持独立

为IPO做准备？

Gemini 4.0：不止是基准测试

Gemini Omni：文本+图像+视频统一管线

Android XR眼镜与Aluminium OS

Gemini Spark：谷歌版的AI智能体

📌 项目简介

⚙️ 安装要求与过程

方式一：直接使用官方平台（推荐）

方式二：私有化部署

系统要求

✨ 核心功能

🚀 典型使用场景

💡 推荐理由

📥 下载地址

80倍增长，Dario在台上”凡尔赛”

马斯克出手：22万块GPU救急

2000亿美元抱上谷歌大腿

Gemini 4.0：上下文窗口拉到1000万tokens

Android XR眼镜：80克、499美元起

Aluminum OS：8年磨一剑，三系统合一

ChatGPT现在能连你的银行账户了，OpenAI把金融助手这件事做了

你能用它干什么

隐私这件事怎么处理

为什么现在做这件事