标签: OpenAI

  • OpenAI上线图片溯源功能,AI生成图终于有身份证了

    前几天刷到一张真假难辨的图,第一反应是去翻评论区看有没有人说是AI做的。这种事现在越来越常见,AI生成的图像质量越来越高,肉眼基本看不出破绽,结果就是谣言、诈骗、假新闻配图越来越难甄别。

    5月19日,OpenAI终于动了,宣布了两件事:一是接入C2PA开放标准,在图片元数据包里写清楚”这张图是AI生成的”;二是和谷歌合作,给图片嵌入SynthID不可见水印,截图、裁剪、加滤镜都抹不掉。

    Google SynthID开发者大会展示图
    谷歌SynthID水印演示现场(图片来源:TechCrunch)

    两套系统,互补短板

    C2PA的好处是信息量大,谁生成的、用什么模型生成的,都能写进去。问题是元数据太容易被篡改,有人故意删掉就白搭。SynthID正好反过来,水印嵌在像素层,抗干扰能力强,但能携带的信息有限。

    OpenAI的说法是:水印在截图之类的转置操作里更耐用,元数据能比单独的水印提供更多信息,两个一起上,可靠性比单用任何一层都高得多。

    一个公开验证工具正在预览

    光有水印不够,得让用户能用才行。OpenAI在做的验证工具,上传一张图就能检测有没有C2PA标识或SynthID水印,初期只支持自家的DALL·E等模型生成的图像,但OpenAI说希望未来能扩展到其他公司的AI工具。

    这件事的意义不只是”OpenAI给自己打标记”。作为头部玩家,OpenAI同时支持C2PA和SynthID,等于在推整个行业往统一溯源标准上走。不然每家各自为战,用户要装一堆检测工具,最后还是一地鸡毛。


    目前只管自家图片

    有个现实的限制:这两套保护措施只覆盖OpenAI自己生成的图片。网上那些用Stable Diffusion、Midjourney或者其他野路子公司工具生成的图,暂时还不归它管。所以这套方案目前最大的作用是确保OpenAI”不当帮凶”,而不是一口气解决整个AI假图问题。

    不过方向是对的。溯源这件事,不做就永远没有,做了至少有个起点。等覆盖的模型多了、用户习惯用验证工具了,AI生成内容的透明度才能真正提上来。

  • Andrej Karpathy官宣加入Anthropic,OpenAI联合创始人为何选择竞对

    5月19日,AI圈被一条推文炸开了锅——Andrej Karpathy在X上官宣了自己加入Anthropic的消息。这位OpenAI的联合创始人、特斯拉前AI负责人,选择在这时候加入Claude的缔造者,让不少人感到意外。

    「我认为LLM前沿领域接下来的几年会特别关键。我很兴奋能加入这里的团队,重新回到研发一线。」——Andrej Karpathy

    他到底是谁

    karpathy在AI圈子里的分量,不需要太多介绍。他是OpenAI的创始成员之一,早年深耕深度学习和计算机视觉,2017年被马斯克挖去特斯拉,一手搭建了FSD(全自动驾驶)和Autopilot的核心团队。2022年离开特斯拉后,他短暂回归OpenAI一年,2024年又出来创立了Eureka Labs,想用AI助手做教育。

    他还有一门非常出名的在线课程《Neural Networks: Zero to Hero》,教学生从零开始用代码实现神经网络,在YouTube上有一大批忠实观众。可以说,他是少数几个既能搞懂大模型理论、又能真正把大规模训练跑起来的人。

    Andrej Karpathy
    Andrej Karpathy(图源:San Francisco Chronicle / Getty Images)

    在Anthropic做什么

    Karpathy本周正式入职Anthropic,在Nick Joseph的带领下专注于预训练(pre-training)方向。预训练是构建前沿模型最烧钱、最吃算力的阶段,直接决定了Claude的核心知识和能力上限。

    Anthropic方面还透露,Karpathy会着手组建一个专门的团队,研究方向是用Claude来加速预训练研究本身。这个思路很清晰——用AI来研究AI,用更强的模型来帮自己训练下一代模型,形成研发飞轮。


    为什么是现在

    Anthropic在这个时间点挖来Karpathy,信号很明确:他们相信AI辅助的研发,而不仅仅是堆算力,才是接下来和OpenAI、Google竞争的关键。能同时懂LLM理论和大尺度训练实践的研究者,圈子里掰着手指头数得过来,Karpathy是一个。

    至于他创立的Eureka Labs,目前还没有进一步的消息。Karpathy在自己的帖子里也提到,他对教育的热情不会消失,未来会找时间继续这件事。

    • OpenAI联合创始人身份,深度参与GPT早期研发
    • 特斯拉FSD团队缔造者,大规模AI落地经验
    • 顶级AI教育者,Zero to Hero课程影响数十万开发者
    • 唯一同时深度参与过OpenAI和特斯拉AI全栈的领军人物

    同一天,Anthropic还宣布了另一位重磅人才的加入:网络安全老将Chris Rohlf加入了前沿红队(frontier red team)。Rohlf在Yahoo的”The Paranoids”安全团队成名,后来在Meta待了六年,职业生涯跨度超过20年。他在X上写道:「我们有一个真正的机会,用AI大幅改善网络安全」,并认为此刻加入Anthropic是正确的选择。

    两则人事消息同一天公布,怎么看都像是Anthropic在Google I/O期间的一次精准人才公关。不管是巧合还是刻意为之,Anthropic正在用行动告诉外界:他们不仅在模型能力上追,在人才吸引上也一点不虚。

  • OpenAI连发三个语音模型,这次不只是”能说话”

    OpenAI连发三个语音模型,这次不只是”能说话”

    5月7日凌晨,OpenAI一口气发了三款音频模型:GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。官方说法是让开发者能构建”在用户说话时推理、翻译和转写”的实时语音产品。三款模型已经开放给开发者测试了。

    这次更新的重点在于”分工”。三款模型各管一摊事:GPT-Realtime-2管实时语音Agent,GPT-Realtime-Translate管实时翻译,GPT-Realtime-Whisper管实时转写。这个打法很OpenAI——不只要做最好的单一模型,还要把整个语音AI的赛道拆成几块,各自做到极致。

    OpenAI GPT-Realtime-2 语音模型
    GPT-Realtime-2 是 OpenAI 首个具备 GPT-5 级推理能力的语音模型(图源:OpenAI)

    GPT-Realtime-2:从”能说”到”会说”

    GPT-Realtime-2是这次更新的主角。OpenAI官方的说法是,这是第一款具备”GPT-5级推理”的语音模型。这个模型被设计来处理复杂请求、调用工具、处理对话中的打断,还能在更长的语音会话里保持上下文。

    这些能力对应的都是语音Agent落地时最头疼的问题。比如一个用户想咨询买房的事,或者想改签机票,这些场景都可能包含一大堆条件和多轮确认。上下文窗口从32K提升到128K之后,模型可以在更长的实时对话里保留前面出现过的信息,不会聊到一半把前面说的话忘了。

    GPT-Realtime-2在Big Bench Audio测试上比上一代GPT-Realtime-1.5高15.2%,在Audio MultiChallenge上高13.8%。这两个指标衡量的是模型在音频输入、多轮语音、复杂指令和上下文整合方面的能力。

    还有一个很实用的细节:可调推理强度。你可以根据场景选择用多少算力。多数生产场景可以先使用较低的推理强度,优先保证通话里的响应速度;遇到更复杂的客服、预订、排障任务,再提高推理强度,用更多计算换取更完整的判断。这个设计很接地气——语音交互最怕的就是卡顿,用户在电话里等一两秒就会觉得”这AI不行”。


    已经有企业在用了,效果还不错

    OpenAI公布了几个已经在测试的企业用户:美国房地产网站Zillow、旅游预订平台Priceline、德国电信。这些都不是小打小闹的Demo,而是真实业务场景。

    Zillow在用GPT-Realtime-2构建可以理解住房条件并安排看房的语音助手。他们说,在最困难的对抗性测试中,经过prompt优化后,电话任务成功率从69%提升到95%。这个提升幅度很夸张,但也说明语音Agent在垂直场景里确实能干活了。

    Priceline的用例更典型:旅游预订链条很长,用户可能要查航班、订酒店、调整日期、处理延误、比较价格,还可能在境外需要翻译。语音Agent如果能稳定接入后台系统,就有机会把”问答”推进到”办事”。这个跨越才是语音AI真正有价值的地方。

    另外两款模型:翻译和转写

    GPT-Realtime-Translate主打实时语音到语音翻译,支持70多种输入语言到13种输出语言。传统语音翻译常常要求说话人停顿,系统等一句话结束后再翻译;而GPT-Realtime-Translate更接近连续口译的形态,说话人讲话时它就能跟上节奏。

    GPT-Realtime-Whisper则强调实时流式转写,可以在说话人讲话时生成字幕、会议记录和工作流更新。它的价格最便宜,只有0.017美元/分钟。

    三款模型放在一起看,OpenAI已经把实时音频拆成了三个明确入口,价格和延迟要求各不相同。奥特曼想要的可能是”通吃”——不管你要做语音客服、跨语言会议还是实时字幕,都得用我的API。


    语音AI这波竞争,正在从”像人”变成”能办事”

    这个市场里已经有一堆强势玩家了。ElevenLabs今年2月完成5亿美元D轮融资,估值110亿美元;Deepgram今年1月完成1.3亿美元融资,估值13亿美元,服务1300多家客户;Cartesia的Sonic 3模型已经有1万多客户使用,主打90毫秒低延迟。

    OpenAI的优势在于模型栈——它可以把整个企业调用TTS的链路放在同一个开发者平台里。对开发者来说,少接几个供应商,就少一些延迟、集成和运维成本。但语音市场并不好啃,每家都有自己的地盘和忠实客户。

    从目前企业用户的测试反馈来看,GPT-Realtime-2确实在某些场景里把语音Agent的完成率拉到了一个可用的水平。但这波”从对话走向执行”的转型能不能真正跑通,可能还得看接下来半年这些早期客户的真实业务数据。

  • OpenAI确认打造超级应用:ChatGPT、Codex、浏览器三合一

    OpenAI最近确认了一个挺大的产品调整:他们要把ChatGPT、AI编程工具Codex、还有自己开发的Atlas浏览器,全部合并成一个桌面应用。这个消息是5月正式公开的,但内部备忘录早在3月就写好了。

    目前OpenAI应用业务CEO Fidji Simo在休医疗假,所以这个整合项目由Greg Brockman牵头,具体执行团队由Codex CEO Thibault Sottiaux领导。

    为什么要合并?

    OpenAI过去一年有点产品”摊大饼”的意思——Sora、Atlas、Codex、Canvas,各自为战,工程资源被拆得稀碎。结果就是每个产品都还不错,但都没达到能碾压竞品的那种好。

    合并之后,ChatGPT会作为核心编排层,统一调度对话、编码、浏览器三类能力。你可以直接在对话里让AI写代码,然后立刻用内置浏览器测试运行效果。

    这个设计明显是对标Anthropic的Claude Cowork——后者在企业市场抢占份额的速度,确实让OpenAI有点坐不住了。

    分阶段推进,移动端保持独立

    合并不是一口气完成的,OpenAI做了分阶段规划:

    • 第一阶段:先给Codex加编码之外的通用生产力功能,拓宽使用场景
    • 第二阶段:把Atlas浏览器整合进来,实现对话+编码+网页操作的闭环
    • 第三阶段:ChatGPT作为中枢编排层,统一协调所有功能模块

    有意思的是,移动端的ChatGPT App会保持独立,不参与这次合并。看来OpenAI也清楚,手机上搞太重的应用体验未必好。


    为IPO做准备?

    这个时间点值得玩味。截至2026年2月,ChatGPT周活跃用户9亿;截至5月,Codex周活也到了400万。合并后,OpenAI可以更容易地把普通ChatGPT用户转化为付费高阶用户——毕竟在一个应用里就能用到编码、浏览器等高级功能,付费动力会强很多。

    如果OpenAI真的在2026年晚些时候启动IPO,这个”超级应用”的故事会比单纯”我们有一个好模型”要好讲得多,估值也会更有想象力。

    当然,产品整合这种事,说起来容易做起来难。三个不同定位的产品合并成一个,用户体验能不能做到1+1+1>3,还得等实际产品出来才知道。

  • ChatGPT现在能连你的银行账户了,OpenAI把金融助手这件事做了

    ChatGPT现在能连你的银行账户了,OpenAI把金融助手这件事做了

    OpenAI在5月15日悄悄地给ChatGPT Pro用户推了一个新功能——个人金融仪表盘。简单说就是:你授权ChatGPT访问你的银行账户、信用卡、投资账户,它帮你分析花了什么钱、订阅了哪些服务、投资表现怎么样、接下来要付哪些账单。

    这件事的技术底层是Plaid——一家专门做金融账户连接的服务商。Plaid支持超过12,000家金融机构,包括嘉信理财、富达、大通、Robinhood、美国运通、第一资本这些主流平台。授权流程是标准的Plaid界面,不是OpenAI直接碰你的登录凭证。

    ChatGPT个人金融仪表盘截图
    ChatGPT个人金融仪表盘界面(来源:OpenAI)

    你能用它干什么

    官方给的例子挺接地气的。比如你问它”我最近是不是花多了,跟之前比有什么变化?”——它能拉取你近期的消费数据,给你一个对比分析。或者你说”我想在未来5年在我住的城市买房,帮我做个计划”——它会结合你的收入、支出、储蓄情况,给你一个分阶段的目标拆解。

    目前这个功能只向美国地区的Pro用户开放预览,网页端和iOS都能用。OpenAI说他们正在跟Intuit谈合作,后续如果接上了,就能做更复杂的事情——比如你卖了一笔股票,它帮你估算税务影响;或者你申请信用卡,它评估一下你的获批概率。

    OpenAI说,每个月已经有超过2亿用户向ChatGPT问金融相关的问题。所以这个功能某种程度上是把原本就大量发生的对话,升级成了能直接读取数据的版本。

    隐私这件事怎么处理

    金融数据是最敏感的个人数据之一,OpenAI在隐私说明上还是做了些功课。你可以在设置>应用>金融里面断开某个账户的连接,断开之后,同步过来的数据会在30天内从ChatGPT里删除。你也能单独删除某些金融相关的记忆。

    不过话说回来,把银行账户接进去这件事,对大多数人来说心理门槛还是挺高的。OpenAI也知道这点,所以先向Pro用户开放——这批用户对ChatGPT的信任度相对高,也更愿意尝鲜。等跑顺了,再向Plus用户推广。


    为什么现在做这件事

    这件事其实有个前奏:2026年4月,OpenAI收购了个人金融初创公司Hiro的团队。Hiro背后有Ribbit、General Catalyst这些顶级金融科技VC撑腰,团队在金融数据和AI的交叉上有不少积累。OpenAI说Hiro团队的专业能力对推出这个产品很有帮助。

    更大的背景是,AI公司们正在意识到:通用聊天机器人能回答所有问题,但用户在问健康、金融、个人生活这些敏感话题时,其实想要的是专门优化的产品。Anthropic已经推出了健康相关的工具,Perplexity这个月也发布了基于Computer agent的金融研究产品。OpenAI现在是直接把金融功能嵌进ChatGPT里。

    长期来看,这件事如果做成,ChatGPT就不只是一个聊天机器人了——它会变成你财务生活的数字管家。这个位置一旦站稳,用户的切换成本会非常高。

  • OpenAI砸40亿美元成立部署公司,顺便把Tomoro买了

    OpenAI砸40亿美元成立部署公司,顺便把Tomoro买了

    OpenAI这周干了件大事——掏了超过40亿美元,成立了一家专门帮企业落地AI的新公司。名字很直白,叫”OpenAI Deployment Company”。说白了,就是以前卖模型,现在直接派人到你公司里帮你把AI用起来。

    为了把这件事做成,OpenAI顺便把一家叫Tomoro的AI咨询公司给收购了。这家公司不是昨天才成立的——它2023年就跟OpenAI合作过,客户名单里有美泰、红牛、乐购、维珍大西洋航空这些大牌子。收购完成后,Tomoro大概150个资深AI工程师和部署专家直接并入新公司。

    Tomoro的团队不是来OpenAI总部坐班的——他们会被派驻到客户现场,跟企业各个团队一起工作,找AI能真正产生价值的地方。

    为什么要做这件事

    过去这两年,OpenAI在消费者端赚足了眼球——ChatGPT的周活用户数字每次财报季都是亮点。但企业端这边,Anthropic的Claude其实跑得更快。很多公司在评估”到底用哪家的基础模型”时,Claude在企业级场景里的口碑确实不错。

    OpenAI这次成立部署公司,摆明了是要补上这块短板。光有模型不够,得有人帮客户把模型真正用起来——做集成、做定制、做业务流程改造。这块市场,咨询公司(埃森哲、德勤)和技术服务商都在抢,OpenAI现在是自己下场了。


    钱从哪来,谁在背后

    这40亿美元不是OpenAI自己全出的。TPG领投,安宏资本(Advent)、贝恩资本、布鲁克菲尔德(Brookfield)作为联合牵头创始合作方一起进来。OpenAI持有多数股权并掌控运营——也就是说,这家部署公司是个合资企业,但OpenAI说了算。

    有意思的是,路透社上周还报道说,OpenAI和Anthropic分别跟私募股权机构成立了合资公司,正在谈收购更多帮企业做AI落地的服务商。这个赛道突然就热了——因为大家意识到,卖API调用次数这件事,天花板是看得见的。真正赚钱的是帮企业把AI嵌进业务流程里,那种合同是长期的、高黏性的。


    这对行业意味着什么

    这件事释放了一个挺明确的信号:AI大模型公司的竞争,已经从”谁的模型更强”转向”谁能帮客户真正把AI用起来”。模型能力会有差距,但这个差距在缩小。真正的壁垒是——谁有更多的工程师能派到客户现场,谁有更多的行业落地经验,谁能帮客户把AI变成业务流程里真正产生价值的东西。

    Anthropic之前在企业端跑得快,一部分原因是它的模型在代码生成、数据分析这些场景里确实好用,另一部分原因是它更早地在开发者生态上投入。OpenAI这次直接收购Tomoro、组建150人的部署团队,是在用”堆人”的方式快速追上。

    对那些正在犹豫”要不要上AI”的企业来说,这其实是个好消息——以后不光是买个模型回去自己折腾,大厂会直接派人来帮你做。当然,费用估计也不会便宜。

  • GPT-5.5 Instant全面上线:ChatGPT默认模型升级,数学推理大涨24%

    OpenAI在5月5日把这周默认模型换成了GPT-5.5 Instant,替代了之前的GPT-5.3 Instant。这次升级不是小修小补——数学测试AIME 2025从65.4分拉到81.2分,多模态推理MMMU-Pro从69.2涨到76分。如果你用过GPT-5.3觉得数学推理还差点意思,这一版能感觉到明显进步。

    GPT-5.5 Instant 记忆功能更新
    GPT-5.5 Instant 新增记忆功能,可引用过往对话和关联Gmail账户(图源:OpenAI)

    幻觉率下降,但OpenAI没给具体数字

    OpenAI在公告里说GPT-5.5 Instant在法律、医疗、金融这些高风险领域的幻觉减少了,但没公布具体百分比。TechCrunch的报道也确认了这一点——知道它减少了,但不知道减少了多少。对比隔壁Claude时不时自己编造个引用来源,GPT-5.5 Instant这波升级至少在”不乱说”这件事上下了功夫。

    GPT-5.3 Instant的AIME 2025分数是65.4,GPT-5.5 Instant是81.2——这个跳跃幅度相当于从”能做对大部分”到”基本不会错”。多模态推理的提升同样显著,这意味着看图做题、理解图表这些能力也跟着涨了。

    新记忆功能有点东西

    这波更新最实用的功能,是GPT-5.5 Instant新增的记忆能力。模型现在可以引用你之前的对话记录、上传过的文件、甚至关联的Gmail账户内容来生成更个性化的回复。比如你之前跟它讨论过某个项目,下次接着问的时候它记得上下文,不用你重新介绍背景。

    • ChatGPT Plus/Pro用户:已可使用(网页版)
    • 移动端:即将推出
    • Free/Go Business/企业用户:未来几周内开放
    • 记忆来源可视化:用户可查看、编辑、删除记忆源

    默认模型这件事意味着什么

    ChatGPT的默认模型,全球有数亿人在用。把GPT-5.5 Instant设成默认,等于OpenAI在对用户说:这是目前综合体验最好的模型,不需要你手动切换。对比Anthropic那边要用户自己选Opus还是Sonnet,OpenAI的策略更直接——我帮你选好了,你就用这个。

    从GPT-5.3到GPT-5.5,中间隔了不到两个月。这个迭代速度说明OpenAI现在已经把模型升级做成了”持续交付”模式,而不是以前那种一年一次大版本的节奏。对开发者来说,这意味着API背后的模型能力在悄悄变强,但你不一定能感知到具体是哪天升级的。

  • 五大前沿AI实验室被纳入政府监管:模型发布前要先过这一关

    美国商务部下属的AI安全与基础设施局(CAISI)近期悄悄干了一件事——和OpenAI、Anthropic、Google DeepMind、微软、xAI这五家前沿AI实验室全部签署了预部署评估协议。意思是,这些实验室的主流模型在正式发布前,得先过政府这一关。

    不是自愿,是强制

    这份协议已经最终敲定,具有约束力。覆盖范围是五家实验室计划在美国境内发布的所有主流前沿模型。评估由CAISI主导,核心目标是排查模型的安全风险和合规隐患,防止模型发布后引发监管暴露问题。

    具体评估指标和详细内容目前没有公开,但可以参考英国AI安全研究所最新发布的红队测试指南——主要聚焦模型能力边界和潜在滥用风险。这个变化意味着,从模型官宣到API正式对外开放,中间会多一段政府评估的时间窗口。

    这标志着美国AI产业正式从”快速行动、打破常规”的野蛮生长阶段,转向受监管的基础设施类产业的监管逻辑——是行业结构性的监管转向。

    全球监管协同正在形成

    欧盟方面也在跟进。目前欧盟正与Anthropic洽谈Mythos模型的政府访问权限,但尚未达成与美国同等层级的协议。英国AI安全研究所则在Google I/O大会开幕前更新了红队测试指南,表明国际层面在协同关注前沿模型能力监管。

    对企业用户来说,这套新流程相当于给前沿模型加了一层官方信任背书——所有模型在发布前都经过政府评估,理论上能降低企业部署后遭遇监管处罚或合规风险的可能性。

    对行业意味着什么

    短期来看,模型发布节奏会受影响。实验室需要预留政府评估的时间,从完成训练到正式上线的时间窗口会被拉长。对于那些靠”抢先发布”来占据市场注意力的实验室来说,这不是一个好消息。

    但换个角度看,政府背书也能成为竞争优势。Anthropic在企业市场的迅猛增长,部分原因就是它的模型被认为”更安全、更合规”。当监管成为行业标准的一部分,跑赢合规反而可能是最好的市场策略。

    xAI作为名单里最新的成员,它的加入说明监管网已经覆盖了所有主流玩家,不管创始人埃隆·马斯克和华盛顿的关系如何,规则面前暂时人人平等。


  • 前副总裁炮轰微软AI战略:每季度烧钱2700亿,96.7%用户说不

    微软前副总裁马特·韦洛索近日公开开火,说微软已经错失了这波AI浪潮,正在重蹈互联网和移动时代的覆辙。这位曾在微软首席执行官身边担任四年技术顾问的高管,抛出的数据相当刺眼——每季度烧掉375亿美元(约2715亿元人民币),但Microsoft 365的4.5亿用户里,96.7%的人拒绝使用Copilot的高级AI功能。

    强行捆绑反而把用户推远了

    微软的策略说白了就是”强推”——把Copilot直接预装到Windows 11任务栏和Office套件里,以为这样就能让用户就范。结果呢?用户不买账。付费数据更尴尬:4.5亿Microsoft 365用户里,只有约1500万人买了Copilot席位,付费率仅3.3%。

    这让我想起当年Windows Phone的结局。微软在移动互联网时代就是这么输的——有技术、有资源,但就是做不出用户真正想要的产品。现在AI这波,看起来历史正在重演。

    马特·韦洛索的核心观点很直接:微软已经错失了人工智能发展浪潮,当前的AI战略正在重蹈互联网与移动时代的覆辙,属于自嗨行为。

    硬件生态也没带起来

    过去一年,微软极力推动笔记本厂商集成NPU芯片,想复制当年Intel Inside的成功模式。但问题是,Windows和Office压根没开发出什么有价值的NPU用例。厂商跟着微软押注NPU,结果市场根本不买账。

    更要命的是,作为AI编码核心平台的GitHub,服务可靠性已经降到90%以下。对于依赖GitHub的开发者来说,这意味着每十次操作至少有一次会出问题。AI时代的”基础设施”居然这么脆弱,说实话有点不可思议。

    OpenAI绕开微软,直接杀入企业市场

    就在微软还在为Copilot的付费率发愁的时候,OpenAI已经悄悄布局了一手——成立名为”OpenAI部署公司”的新部门,拿到超过40亿美元(约290亿元人民币)的初始投资,配备150名部署工程师,直接驻扎在财富500强企业里提供定制化AI解决方案。

    这个打法很精明:绕开微软Azure这个中间商,直接切入利润最丰厚的企业服务层。对微软来说,这简直是釜底抽薪——全盘押注OpenAI、指望靠云服务变现的算盘,被OpenAI自己给砸了。


    微软正在被动调整

    面对用户的强烈反弹,微软已经开始缩减Windows 11中的Copilot功能,转而去优化原生用户界面性能。这等于承认了此前的策略有问题。但问题在于,每季度375亿美元的AI资本支出已经投进去了,现在调整方向,之前的投入怎么算?

    股东们已经在问了:这么多钱投进去,到底什么时候能看到回报?微软的答案目前看来还很模糊。AI确实是未来,但砸钱不等于能砸出好产品,这个道理微软好像还没真正想明白。

  • OpenAI把Codex装进手机和Chrome,400万周活用户的编程方式要变了

    OpenAI在5月14日扔了个重磅消息:Codex正式进入ChatGPT移动端预览版。iOS和Android的ChatGPT App用户,现在可以直接在手机上查看、管理和推进Codex的编程任务。周活已经破了400万的Codex,这一步走得相当聪明——当AI开始处理那些动辄几十分钟甚至几小时的复杂任务时,开发者不可能一直守在电脑前。

    Codex的周活用户在今年初才50万,现在已经超过400万,8倍增长。OpenAI把移动端和浏览器扩展同时推出来,明显是在构建一个跨设备的AI编程生态,而不只是个代码助手。

    移动端能做啥,不是远程控制那么简单

    打开手机上的ChatGPT App,你现在可以看到Codex任务列表:哪些任务在跑、进度到哪了、输出了什么结果。需要人工审批的命令,手机会弹出通知让你确认。终端输出、测试结果、代码diff、截图——这些都能在手机上查看。

    但代码文件、凭证、本地配置,仍然留在你的开发机上。OpenAI的定位很清晰:移动端是”跨设备AI编程协作入口”,不是让你在手机上写代码的远程桌面。你的Mac mini、笔记本或者远程开发环境继续跑任务,手机只负责看进度和拍板关键决策。


    Chrome扩展同步上线,盯着浏览器这块高频入口

    5月8日,OpenAI还悄悄推了Codex的Chrome扩展。这个动作的意图很直接:大多数开发者的日常工作,大量时间在浏览器里——查文档、测Web应用、看后台面板、开在线IDE。Codex扩展能直接读取多标签页上下文、调用DevTools、帮你测试Web应用,而且不会接管整个浏览器,页面控制权还在你手里。

    这个扩展补上了Codex在”浏览器工作流”里的空白。桌面版的Computer Use功能虽然强,但Chrome扩展更轻量,更适合需要频繁切换上下文的日常工作。OpenAI发现,用户不只拿Codex写代码,还在用它处理测试、排错、网页协作这些连续任务。


    企业功能跟上,不只是个人开发者的玩具

    这次更新里,Remote SSH正式可用了,支持连接企业已有的远程开发环境。Hooks和Programmatic access tokens也一并支持,方便企业把Codex集成进自己的CI/CD流程。还有个值得注意的细节:HIPAA合规支持已经就位,这意味着医疗健康行业的开发者也能用Codex处理敏感数据环境。

    Anthropic的Claude Code在开发者圈子里口碑不错,但OpenAI这次移动端+浏览器扩展的组合拳,明显是在覆盖更多使用场景。你不一定要在电脑前才能用AI编程助手,这个理念一旦被接受,Codex的400万周活可能只是个开始。

    • Codex周活破400万,较年初增长8倍
    • 移动端支持iOS/Android,可查看任务进度和审批命令
    • Chrome扩展5月8日上线,覆盖浏览器工作流
    • Remote SSH正式可用,企业级功能增强
    • HIPAA合规支持,切入医疗健康场景