标签： OpenAI

OpenAI上线图片溯源功能，AI生成图终于有身份证了

前几天刷到一张真假难辨的图，第一反应是去翻评论区看有没有人说是AI做的。这种事现在越来越常见，AI生成的图像质量越来越高，肉眼基本看不出破绽，结果就是谣言、诈骗、假新闻配图越来越难甄别。

5月19日，OpenAI终于动了，宣布了两件事：一是接入C2PA开放标准，在图片元数据包里写清楚”这张图是AI生成的”；二是和谷歌合作，给图片嵌入SynthID不可见水印，截图、裁剪、加滤镜都抹不掉。

谷歌SynthID水印演示现场（图片来源：TechCrunch）

两套系统，互补短板

C2PA的好处是信息量大，谁生成的、用什么模型生成的，都能写进去。问题是元数据太容易被篡改，有人故意删掉就白搭。SynthID正好反过来，水印嵌在像素层，抗干扰能力强，但能携带的信息有限。

OpenAI的说法是：水印在截图之类的转置操作里更耐用，元数据能比单独的水印提供更多信息，两个一起上，可靠性比单用任何一层都高得多。

一个公开验证工具正在预览

光有水印不够，得让用户能用才行。OpenAI在做的验证工具，上传一张图就能检测有没有C2PA标识或SynthID水印，初期只支持自家的DALL·E等模型生成的图像，但OpenAI说希望未来能扩展到其他公司的AI工具。

这件事的意义不只是”OpenAI给自己打标记”。作为头部玩家，OpenAI同时支持C2PA和SynthID，等于在推整个行业往统一溯源标准上走。不然每家各自为战，用户要装一堆检测工具，最后还是一地鸡毛。

目前只管自家图片

有个现实的限制：这两套保护措施只覆盖OpenAI自己生成的图片。网上那些用Stable Diffusion、Midjourney或者其他野路子公司工具生成的图，暂时还不归它管。所以这套方案目前最大的作用是确保OpenAI”不当帮凶”，而不是一口气解决整个AI假图问题。

不过方向是对的。溯源这件事，不做就永远没有，做了至少有个起点。等覆盖的模型多了、用户习惯用验证工具了，AI生成内容的透明度才能真正提上来。

📎 原文来源：OpenAI is making it easier to check if an image was made by their models — TechCrunch

2026年5月20日
Andrej Karpathy官宣加入Anthropic，OpenAI联合创始人为何选择竞对
5月19日，AI圈被一条推文炸开了锅——Andrej Karpathy在X上官宣了自己加入Anthropic的消息。这位OpenAI的联合创始人、特斯拉前AI负责人，选择在这时候加入Claude的缔造者，让不少人感到意外。

「我认为LLM前沿领域接下来的几年会特别关键。我很兴奋能加入这里的团队，重新回到研发一线。」——Andrej Karpathy

他到底是谁

karpathy在AI圈子里的分量，不需要太多介绍。他是OpenAI的创始成员之一，早年深耕深度学习和计算机视觉，2017年被马斯克挖去特斯拉，一手搭建了FSD（全自动驾驶）和Autopilot的核心团队。2022年离开特斯拉后，他短暂回归OpenAI一年，2024年又出来创立了Eureka Labs，想用AI助手做教育。

他还有一门非常出名的在线课程《Neural Networks: Zero to Hero》，教学生从零开始用代码实现神经网络，在YouTube上有一大批忠实观众。可以说，他是少数几个既能搞懂大模型理论、又能真正把大规模训练跑起来的人。

Andrej Karpathy（图源：San Francisco Chronicle / Getty Images）

在Anthropic做什么

Karpathy本周正式入职Anthropic，在Nick Joseph的带领下专注于预训练（pre-training）方向。预训练是构建前沿模型最烧钱、最吃算力的阶段，直接决定了Claude的核心知识和能力上限。

Anthropic方面还透露，Karpathy会着手组建一个专门的团队，研究方向是用Claude来加速预训练研究本身。这个思路很清晰——用AI来研究AI，用更强的模型来帮自己训练下一代模型，形成研发飞轮。

为什么是现在

Anthropic在这个时间点挖来Karpathy，信号很明确：他们相信AI辅助的研发，而不仅仅是堆算力，才是接下来和OpenAI、Google竞争的关键。能同时懂LLM理论和大尺度训练实践的研究者，圈子里掰着手指头数得过来，Karpathy是一个。

至于他创立的Eureka Labs，目前还没有进一步的消息。Karpathy在自己的帖子里也提到，他对教育的热情不会消失，未来会找时间继续这件事。
- OpenAI联合创始人身份，深度参与GPT早期研发
- 特斯拉FSD团队缔造者，大规模AI落地经验
- 顶级AI教育者，Zero to Hero课程影响数十万开发者
- 唯一同时深度参与过OpenAI和特斯拉AI全栈的领军人物
同一天，Anthropic还宣布了另一位重磅人才的加入：网络安全老将Chris Rohlf加入了前沿红队（frontier red team）。Rohlf在Yahoo的”The Paranoids”安全团队成名，后来在Meta待了六年，职业生涯跨度超过20年。他在X上写道：「我们有一个真正的机会，用AI大幅改善网络安全」，并认为此刻加入Anthropic是正确的选择。

两则人事消息同一天公布，怎么看都像是Anthropic在Google I/O期间的一次精准人才公关。不管是巧合还是刻意为之，Anthropic正在用行动告诉外界：他们不仅在模型能力上追，在人才吸引上也一点不虚。

📎 原文来源：TechCrunch – OpenAI co-founder Andrej Karpathy joins Anthropic’s pre-training team
2026年5月20日
OpenAI连发三个语音模型，这次不只是”能说话”

OpenAI连发三个语音模型，这次不只是”能说话”

5月7日凌晨，OpenAI一口气发了三款音频模型：GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。官方说法是让开发者能构建”在用户说话时推理、翻译和转写”的实时语音产品。三款模型已经开放给开发者测试了。

这次更新的重点在于”分工”。三款模型各管一摊事：GPT-Realtime-2管实时语音Agent，GPT-Realtime-Translate管实时翻译，GPT-Realtime-Whisper管实时转写。这个打法很OpenAI——不只要做最好的单一模型，还要把整个语音AI的赛道拆成几块，各自做到极致。

GPT-Realtime-2 是 OpenAI 首个具备 GPT-5 级推理能力的语音模型（图源：OpenAI）

GPT-Realtime-2：从”能说”到”会说”

GPT-Realtime-2是这次更新的主角。OpenAI官方的说法是，这是第一款具备”GPT-5级推理”的语音模型。这个模型被设计来处理复杂请求、调用工具、处理对话中的打断，还能在更长的语音会话里保持上下文。

这些能力对应的都是语音Agent落地时最头疼的问题。比如一个用户想咨询买房的事，或者想改签机票，这些场景都可能包含一大堆条件和多轮确认。上下文窗口从32K提升到128K之后，模型可以在更长的实时对话里保留前面出现过的信息，不会聊到一半把前面说的话忘了。

GPT-Realtime-2在Big Bench Audio测试上比上一代GPT-Realtime-1.5高15.2%，在Audio MultiChallenge上高13.8%。这两个指标衡量的是模型在音频输入、多轮语音、复杂指令和上下文整合方面的能力。

还有一个很实用的细节：可调推理强度。你可以根据场景选择用多少算力。多数生产场景可以先使用较低的推理强度，优先保证通话里的响应速度；遇到更复杂的客服、预订、排障任务，再提高推理强度，用更多计算换取更完整的判断。这个设计很接地气——语音交互最怕的就是卡顿，用户在电话里等一两秒就会觉得”这AI不行”。

已经有企业在用了，效果还不错

OpenAI公布了几个已经在测试的企业用户：美国房地产网站Zillow、旅游预订平台Priceline、德国电信。这些都不是小打小闹的Demo，而是真实业务场景。

Zillow在用GPT-Realtime-2构建可以理解住房条件并安排看房的语音助手。他们说，在最困难的对抗性测试中，经过prompt优化后，电话任务成功率从69%提升到95%。这个提升幅度很夸张，但也说明语音Agent在垂直场景里确实能干活了。

Priceline的用例更典型：旅游预订链条很长，用户可能要查航班、订酒店、调整日期、处理延误、比较价格，还可能在境外需要翻译。语音Agent如果能稳定接入后台系统，就有机会把”问答”推进到”办事”。这个跨越才是语音AI真正有价值的地方。

另外两款模型：翻译和转写

GPT-Realtime-Translate主打实时语音到语音翻译，支持70多种输入语言到13种输出语言。传统语音翻译常常要求说话人停顿，系统等一句话结束后再翻译；而GPT-Realtime-Translate更接近连续口译的形态，说话人讲话时它就能跟上节奏。

GPT-Realtime-Whisper则强调实时流式转写，可以在说话人讲话时生成字幕、会议记录和工作流更新。它的价格最便宜，只有0.017美元/分钟。

三款模型放在一起看，OpenAI已经把实时音频拆成了三个明确入口，价格和延迟要求各不相同。奥特曼想要的可能是”通吃”——不管你要做语音客服、跨语言会议还是实时字幕，都得用我的API。

语音AI这波竞争，正在从”像人”变成”能办事”

这个市场里已经有一堆强势玩家了。ElevenLabs今年2月完成5亿美元D轮融资，估值110亿美元；Deepgram今年1月完成1.3亿美元融资，估值13亿美元，服务1300多家客户；Cartesia的Sonic 3模型已经有1万多客户使用，主打90毫秒低延迟。

OpenAI的优势在于模型栈——它可以把整个企业调用TTS的链路放在同一个开发者平台里。对开发者来说，少接几个供应商，就少一些延迟、集成和运维成本。但语音市场并不好啃，每家都有自己的地盘和忠实客户。

从目前企业用户的测试反馈来看，GPT-Realtime-2确实在某些场景里把语音Agent的完成率拉到了一个可用的水平。但这波”从对话走向执行”的转型能不能真正跑通，可能还得看接下来半年这些早期客户的真实业务数据。

📎 原文来源：AI有嘴了，OpenAI 连发三语音模型 — 36氪

2026年5月19日
OpenAI确认打造超级应用：ChatGPT、Codex、浏览器三合一
OpenAI最近确认了一个挺大的产品调整：他们要把ChatGPT、AI编程工具Codex、还有自己开发的Atlas浏览器，全部合并成一个桌面应用。这个消息是5月正式公开的，但内部备忘录早在3月就写好了。

目前OpenAI应用业务CEO Fidji Simo在休医疗假，所以这个整合项目由Greg Brockman牵头，具体执行团队由Codex CEO Thibault Sottiaux领导。

为什么要合并？

OpenAI过去一年有点产品”摊大饼”的意思——Sora、Atlas、Codex、Canvas，各自为战，工程资源被拆得稀碎。结果就是每个产品都还不错，但都没达到能碾压竞品的那种好。

合并之后，ChatGPT会作为核心编排层，统一调度对话、编码、浏览器三类能力。你可以直接在对话里让AI写代码，然后立刻用内置浏览器测试运行效果。

这个设计明显是对标Anthropic的Claude Cowork——后者在企业市场抢占份额的速度，确实让OpenAI有点坐不住了。

分阶段推进，移动端保持独立

合并不是一口气完成的，OpenAI做了分阶段规划：
- 第一阶段：先给Codex加编码之外的通用生产力功能，拓宽使用场景
- 第二阶段：把Atlas浏览器整合进来，实现对话+编码+网页操作的闭环
- 第三阶段：ChatGPT作为中枢编排层，统一协调所有功能模块
有意思的是，移动端的ChatGPT App会保持独立，不参与这次合并。看来OpenAI也清楚，手机上搞太重的应用体验未必好。

为IPO做准备？

这个时间点值得玩味。截至2026年2月，ChatGPT周活跃用户9亿；截至5月，Codex周活也到了400万。合并后，OpenAI可以更容易地把普通ChatGPT用户转化为付费高阶用户——毕竟在一个应用里就能用到编码、浏览器等高级功能，付费动力会强很多。

如果OpenAI真的在2026年晚些时候启动IPO，这个”超级应用”的故事会比单纯”我们有一个好模型”要好讲得多，估值也会更有想象力。

当然，产品整合这种事，说起来容易做起来难。三个不同定位的产品合并成一个，用户体验能不能做到1+1+1>3，还得等实际产品出来才知道。

📎 原文来源：OpenAI Super App Confirmed – ChatGPT + Codex + Atlas Browser Merging Into One Desktop
2026年5月19日
ChatGPT现在能连你的银行账户了，OpenAI把金融助手这件事做了

ChatGPT现在能连你的银行账户了，OpenAI把金融助手这件事做了

OpenAI在5月15日悄悄地给ChatGPT Pro用户推了一个新功能——个人金融仪表盘。简单说就是：你授权ChatGPT访问你的银行账户、信用卡、投资账户，它帮你分析花了什么钱、订阅了哪些服务、投资表现怎么样、接下来要付哪些账单。

这件事的技术底层是Plaid——一家专门做金融账户连接的服务商。Plaid支持超过12,000家金融机构，包括嘉信理财、富达、大通、Robinhood、美国运通、第一资本这些主流平台。授权流程是标准的Plaid界面，不是OpenAI直接碰你的登录凭证。

ChatGPT个人金融仪表盘界面（来源：OpenAI）

你能用它干什么

官方给的例子挺接地气的。比如你问它”我最近是不是花多了，跟之前比有什么变化？”——它能拉取你近期的消费数据，给你一个对比分析。或者你说”我想在未来5年在我住的城市买房，帮我做个计划”——它会结合你的收入、支出、储蓄情况，给你一个分阶段的目标拆解。

目前这个功能只向美国地区的Pro用户开放预览，网页端和iOS都能用。OpenAI说他们正在跟Intuit谈合作，后续如果接上了，就能做更复杂的事情——比如你卖了一笔股票，它帮你估算税务影响；或者你申请信用卡，它评估一下你的获批概率。

OpenAI说，每个月已经有超过2亿用户向ChatGPT问金融相关的问题。所以这个功能某种程度上是把原本就大量发生的对话，升级成了能直接读取数据的版本。

隐私这件事怎么处理

金融数据是最敏感的个人数据之一，OpenAI在隐私说明上还是做了些功课。你可以在设置>应用>金融里面断开某个账户的连接，断开之后，同步过来的数据会在30天内从ChatGPT里删除。你也能单独删除某些金融相关的记忆。

不过话说回来，把银行账户接进去这件事，对大多数人来说心理门槛还是挺高的。OpenAI也知道这点，所以先向Pro用户开放——这批用户对ChatGPT的信任度相对高，也更愿意尝鲜。等跑顺了，再向Plus用户推广。

为什么现在做这件事

这件事其实有个前奏：2026年4月，OpenAI收购了个人金融初创公司Hiro的团队。Hiro背后有Ribbit、General Catalyst这些顶级金融科技VC撑腰，团队在金融数据和AI的交叉上有不少积累。OpenAI说Hiro团队的专业能力对推出这个产品很有帮助。

更大的背景是，AI公司们正在意识到：通用聊天机器人能回答所有问题，但用户在问健康、金融、个人生活这些敏感话题时，其实想要的是专门优化的产品。Anthropic已经推出了健康相关的工具，Perplexity这个月也发布了基于Computer agent的金融研究产品。OpenAI现在是直接把金融功能嵌进ChatGPT里。

长期来看，这件事如果做成，ChatGPT就不只是一个聊天机器人了——它会变成你财务生活的数字管家。这个位置一旦站稳，用户的切换成本会非常高。

📎 原文来源：TechCrunch – OpenAI launches ChatGPT for personal finance

2026年5月19日
OpenAI砸40亿美元成立部署公司，顺便把Tomoro买了

OpenAI砸40亿美元成立部署公司，顺便把Tomoro买了

OpenAI这周干了件大事——掏了超过40亿美元，成立了一家专门帮企业落地AI的新公司。名字很直白，叫”OpenAI Deployment Company”。说白了，就是以前卖模型，现在直接派人到你公司里帮你把AI用起来。

为了把这件事做成，OpenAI顺便把一家叫Tomoro的AI咨询公司给收购了。这家公司不是昨天才成立的——它2023年就跟OpenAI合作过，客户名单里有美泰、红牛、乐购、维珍大西洋航空这些大牌子。收购完成后，Tomoro大概150个资深AI工程师和部署专家直接并入新公司。

Tomoro的团队不是来OpenAI总部坐班的——他们会被派驻到客户现场，跟企业各个团队一起工作，找AI能真正产生价值的地方。

为什么要做这件事

过去这两年，OpenAI在消费者端赚足了眼球——ChatGPT的周活用户数字每次财报季都是亮点。但企业端这边，Anthropic的Claude其实跑得更快。很多公司在评估”到底用哪家的基础模型”时，Claude在企业级场景里的口碑确实不错。

OpenAI这次成立部署公司，摆明了是要补上这块短板。光有模型不够，得有人帮客户把模型真正用起来——做集成、做定制、做业务流程改造。这块市场，咨询公司（埃森哲、德勤）和技术服务商都在抢，OpenAI现在是自己下场了。

钱从哪来，谁在背后

这40亿美元不是OpenAI自己全出的。TPG领投，安宏资本（Advent）、贝恩资本、布鲁克菲尔德（Brookfield）作为联合牵头创始合作方一起进来。OpenAI持有多数股权并掌控运营——也就是说，这家部署公司是个合资企业，但OpenAI说了算。

有意思的是，路透社上周还报道说，OpenAI和Anthropic分别跟私募股权机构成立了合资公司，正在谈收购更多帮企业做AI落地的服务商。这个赛道突然就热了——因为大家意识到，卖API调用次数这件事，天花板是看得见的。真正赚钱的是帮企业把AI嵌进业务流程里，那种合同是长期的、高黏性的。

这对行业意味着什么

这件事释放了一个挺明确的信号：AI大模型公司的竞争，已经从”谁的模型更强”转向”谁能帮客户真正把AI用起来”。模型能力会有差距，但这个差距在缩小。真正的壁垒是——谁有更多的工程师能派到客户现场，谁有更多的行业落地经验，谁能帮客户把AI变成业务流程里真正产生价值的东西。

Anthropic之前在企业端跑得快，一部分原因是它的模型在代码生成、数据分析这些场景里确实好用，另一部分原因是它更早地在开发者生态上投入。OpenAI这次直接收购Tomoro、组建150人的部署团队，是在用”堆人”的方式快速追上。

对那些正在犹豫”要不要上AI”的企业来说，这其实是个好消息——以后不光是买个模型回去自己折腾，大厂会直接派人来帮你做。当然，费用估计也不会便宜。

📎 原文来源：IT之家 – OpenAI 豪掷 40 亿美元成立新公司，要帮企业部署 AI

2026年5月19日
GPT-5.5 Instant全面上线：ChatGPT默认模型升级，数学推理大涨24%
OpenAI在5月5日把这周默认模型换成了GPT-5.5 Instant，替代了之前的GPT-5.3 Instant。这次升级不是小修小补——数学测试AIME 2025从65.4分拉到81.2分，多模态推理MMMU-Pro从69.2涨到76分。如果你用过GPT-5.3觉得数学推理还差点意思，这一版能感觉到明显进步。

GPT-5.5 Instant 新增记忆功能，可引用过往对话和关联Gmail账户（图源：OpenAI）

幻觉率下降，但OpenAI没给具体数字

OpenAI在公告里说GPT-5.5 Instant在法律、医疗、金融这些高风险领域的幻觉减少了，但没公布具体百分比。TechCrunch的报道也确认了这一点——知道它减少了，但不知道减少了多少。对比隔壁Claude时不时自己编造个引用来源，GPT-5.5 Instant这波升级至少在”不乱说”这件事上下了功夫。

GPT-5.3 Instant的AIME 2025分数是65.4，GPT-5.5 Instant是81.2——这个跳跃幅度相当于从”能做对大部分”到”基本不会错”。多模态推理的提升同样显著，这意味着看图做题、理解图表这些能力也跟着涨了。

新记忆功能有点东西

这波更新最实用的功能，是GPT-5.5 Instant新增的记忆能力。模型现在可以引用你之前的对话记录、上传过的文件、甚至关联的Gmail账户内容来生成更个性化的回复。比如你之前跟它讨论过某个项目，下次接着问的时候它记得上下文，不用你重新介绍背景。
- ChatGPT Plus/Pro用户：已可使用（网页版）
- 移动端：即将推出
- Free/Go Business/企业用户：未来几周内开放
- 记忆来源可视化：用户可查看、编辑、删除记忆源
默认模型这件事意味着什么

ChatGPT的默认模型，全球有数亿人在用。把GPT-5.5 Instant设成默认，等于OpenAI在对用户说：这是目前综合体验最好的模型，不需要你手动切换。对比Anthropic那边要用户自己选Opus还是Sonnet，OpenAI的策略更直接——我帮你选好了，你就用这个。

从GPT-5.3到GPT-5.5，中间隔了不到两个月。这个迭代速度说明OpenAI现在已经把模型升级做成了”持续交付”模式，而不是以前那种一年一次大版本的节奏。对开发者来说，这意味着API背后的模型能力在悄悄变强，但你不一定能感知到具体是哪天升级的。

📎 原文来源：OpenAI releases GPT-5.5 Instant, a new default model for ChatGPT – TechCrunch
2026年5月18日
五大前沿AI实验室被纳入政府监管：模型发布前要先过这一关

美国商务部下属的AI安全与基础设施局（CAISI）近期悄悄干了一件事——和OpenAI、Anthropic、Google DeepMind、微软、xAI这五家前沿AI实验室全部签署了预部署评估协议。意思是，这些实验室的主流模型在正式发布前，得先过政府这一关。

不是自愿，是强制

这份协议已经最终敲定，具有约束力。覆盖范围是五家实验室计划在美国境内发布的所有主流前沿模型。评估由CAISI主导，核心目标是排查模型的安全风险和合规隐患，防止模型发布后引发监管暴露问题。

具体评估指标和详细内容目前没有公开，但可以参考英国AI安全研究所最新发布的红队测试指南——主要聚焦模型能力边界和潜在滥用风险。这个变化意味着，从模型官宣到API正式对外开放，中间会多一段政府评估的时间窗口。

这标志着美国AI产业正式从”快速行动、打破常规”的野蛮生长阶段，转向受监管的基础设施类产业的监管逻辑——是行业结构性的监管转向。

全球监管协同正在形成

欧盟方面也在跟进。目前欧盟正与Anthropic洽谈Mythos模型的政府访问权限，但尚未达成与美国同等层级的协议。英国AI安全研究所则在Google I/O大会开幕前更新了红队测试指南，表明国际层面在协同关注前沿模型能力监管。

对企业用户来说，这套新流程相当于给前沿模型加了一层官方信任背书——所有模型在发布前都经过政府评估，理论上能降低企业部署后遭遇监管处罚或合规风险的可能性。

对行业意味着什么

短期来看，模型发布节奏会受影响。实验室需要预留政府评估的时间，从完成训练到正式上线的时间窗口会被拉长。对于那些靠”抢先发布”来占据市场注意力的实验室来说，这不是一个好消息。

但换个角度看，政府背书也能成为竞争优势。Anthropic在企业市场的迅猛增长，部分原因就是它的模型被认为”更安全、更合规”。当监管成为行业标准的一部分，跑赢合规反而可能是最好的市场策略。

xAI作为名单里最新的成员，它的加入说明监管网已经覆盖了所有主流玩家，不管创始人埃隆·马斯克和华盛顿的关系如何，规则面前暂时人人平等。

📎 原文来源：AI News Today – May 18, 2026 | Build Fast with AI

2026年5月18日
前副总裁炮轰微软AI战略：每季度烧钱2700亿，96.7%用户说不

微软前副总裁马特·韦洛索近日公开开火，说微软已经错失了这波AI浪潮，正在重蹈互联网和移动时代的覆辙。这位曾在微软首席执行官身边担任四年技术顾问的高管，抛出的数据相当刺眼——每季度烧掉375亿美元（约2715亿元人民币），但Microsoft 365的4.5亿用户里，96.7%的人拒绝使用Copilot的高级AI功能。

强行捆绑反而把用户推远了

微软的策略说白了就是”强推”——把Copilot直接预装到Windows 11任务栏和Office套件里，以为这样就能让用户就范。结果呢？用户不买账。付费数据更尴尬：4.5亿Microsoft 365用户里，只有约1500万人买了Copilot席位，付费率仅3.3%。

这让我想起当年Windows Phone的结局。微软在移动互联网时代就是这么输的——有技术、有资源，但就是做不出用户真正想要的产品。现在AI这波，看起来历史正在重演。

马特·韦洛索的核心观点很直接：微软已经错失了人工智能发展浪潮，当前的AI战略正在重蹈互联网与移动时代的覆辙，属于自嗨行为。

硬件生态也没带起来

过去一年，微软极力推动笔记本厂商集成NPU芯片，想复制当年Intel Inside的成功模式。但问题是，Windows和Office压根没开发出什么有价值的NPU用例。厂商跟着微软押注NPU，结果市场根本不买账。

更要命的是，作为AI编码核心平台的GitHub，服务可靠性已经降到90%以下。对于依赖GitHub的开发者来说，这意味着每十次操作至少有一次会出问题。AI时代的”基础设施”居然这么脆弱，说实话有点不可思议。

OpenAI绕开微软，直接杀入企业市场

就在微软还在为Copilot的付费率发愁的时候，OpenAI已经悄悄布局了一手——成立名为”OpenAI部署公司”的新部门，拿到超过40亿美元（约290亿元人民币）的初始投资，配备150名部署工程师，直接驻扎在财富500强企业里提供定制化AI解决方案。

这个打法很精明：绕开微软Azure这个中间商，直接切入利润最丰厚的企业服务层。对微软来说，这简直是釜底抽薪——全盘押注OpenAI、指望靠云服务变现的算盘，被OpenAI自己给砸了。

微软正在被动调整

面对用户的强烈反弹，微软已经开始缩减Windows 11中的Copilot功能，转而去优化原生用户界面性能。这等于承认了此前的策略有问题。但问题在于，每季度375亿美元的AI资本支出已经投进去了，现在调整方向，之前的投入怎么算？

股东们已经在问了：这么多钱投进去，到底什么时候能看到回报？微软的答案目前看来还很模糊。AI确实是未来，但砸钱不等于能砸出好产品，这个道理微软好像还没真正想明白。

📎 原文来源：微软前副总裁炮轰：微软已错失AI浪潮正重蹈互联网与移动…

2026年5月18日
OpenAI把Codex装进手机和Chrome，400万周活用户的编程方式要变了
OpenAI在5月14日扔了个重磅消息：Codex正式进入ChatGPT移动端预览版。iOS和Android的ChatGPT App用户，现在可以直接在手机上查看、管理和推进Codex的编程任务。周活已经破了400万的Codex，这一步走得相当聪明——当AI开始处理那些动辄几十分钟甚至几小时的复杂任务时，开发者不可能一直守在电脑前。

Codex的周活用户在今年初才50万，现在已经超过400万，8倍增长。OpenAI把移动端和浏览器扩展同时推出来，明显是在构建一个跨设备的AI编程生态，而不只是个代码助手。

移动端能做啥，不是远程控制那么简单

打开手机上的ChatGPT App，你现在可以看到Codex任务列表：哪些任务在跑、进度到哪了、输出了什么结果。需要人工审批的命令，手机会弹出通知让你确认。终端输出、测试结果、代码diff、截图——这些都能在手机上查看。

但代码文件、凭证、本地配置，仍然留在你的开发机上。OpenAI的定位很清晰：移动端是”跨设备AI编程协作入口”，不是让你在手机上写代码的远程桌面。你的Mac mini、笔记本或者远程开发环境继续跑任务，手机只负责看进度和拍板关键决策。

Chrome扩展同步上线，盯着浏览器这块高频入口

5月8日，OpenAI还悄悄推了Codex的Chrome扩展。这个动作的意图很直接：大多数开发者的日常工作，大量时间在浏览器里——查文档、测Web应用、看后台面板、开在线IDE。Codex扩展能直接读取多标签页上下文、调用DevTools、帮你测试Web应用，而且不会接管整个浏览器，页面控制权还在你手里。

这个扩展补上了Codex在”浏览器工作流”里的空白。桌面版的Computer Use功能虽然强，但Chrome扩展更轻量，更适合需要频繁切换上下文的日常工作。OpenAI发现，用户不只拿Codex写代码，还在用它处理测试、排错、网页协作这些连续任务。

企业功能跟上，不只是个人开发者的玩具

这次更新里，Remote SSH正式可用了，支持连接企业已有的远程开发环境。Hooks和Programmatic access tokens也一并支持，方便企业把Codex集成进自己的CI/CD流程。还有个值得注意的细节：HIPAA合规支持已经就位，这意味着医疗健康行业的开发者也能用Codex处理敏感数据环境。

Anthropic的Claude Code在开发者圈子里口碑不错，但OpenAI这次移动端+浏览器扩展的组合拳，明显是在覆盖更多使用场景。你不一定要在电脑前才能用AI编程助手，这个理念一旦被接受，Codex的400万周活可能只是个开始。
- Codex周活破400万，较年初增长8倍
- 移动端支持iOS/Android，可查看任务进度和审批命令
- Chrome扩展5月8日上线，覆盖浏览器工作流
- Remote SSH正式可用，企业级功能增强
- HIPAA合规支持，切入医疗健康场景
📎 原文来源：OpenAI 将 Codex 带入 ChatGPT 手机端 | IT之家 – Codex Chrome 扩展
2026年5月17日

标签： OpenAI

两套系统，互补短板

一个公开验证工具正在预览

目前只管自家图片

他到底是谁

在Anthropic做什么

为什么是现在

OpenAI连发三个语音模型，这次不只是”能说话”

GPT-Realtime-2：从”能说”到”会说”

已经有企业在用了，效果还不错

另外两款模型：翻译和转写

语音AI这波竞争，正在从”像人”变成”能办事”

为什么要合并？

分阶段推进，移动端保持独立

为IPO做准备？

ChatGPT现在能连你的银行账户了，OpenAI把金融助手这件事做了

你能用它干什么

隐私这件事怎么处理

为什么现在做这件事

OpenAI砸40亿美元成立部署公司，顺便把Tomoro买了

为什么要做这件事

钱从哪来，谁在背后

这对行业意味着什么

幻觉率下降，但OpenAI没给具体数字

新记忆功能有点东西

默认模型这件事意味着什么

不是自愿，是强制

全球监管协同正在形成

对行业意味着什么

强行捆绑反而把用户推远了

硬件生态也没带起来

OpenAI绕开微软，直接杀入企业市场

微软正在被动调整

移动端能做啥，不是远程控制那么简单

Chrome扩展同步上线，盯着浏览器这块高频入口

企业功能跟上，不只是个人开发者的玩具