标签: GPT-5.5

  • OpenAI在2026年5月这波更新,藏着他们真正的野心

    OpenAI在2026年5月这波更新,藏着他们真正的野心

    2026年4月23日到5月28日这段时间,OpenAI密集发布了一堆更新。表面上看,就是发布了新模型、修了几个bug、加了两个功能。但如果你仔细看这波操作的逻辑,会发现他们真正想做的,是把AI从”聊天工具”变成”能连续工作几小时的数字化员工”。

    GPT-5.5来了,但重点不是”更聪明”

    4月23日,GPT-5.5在API、ChatGPT Plus/Pro、Codex、Copilot中上线。数字看着挺漂亮:支持100万token上下文,SWE-bench Verified得分88.7%,MMLU 92.4%,定价5/30美元每百万token。

    但真正有意思的是5月5日上线的GPT-5.5 Instant,它取代了GPT-5.3 Instant成为所有ChatGPT用户的默认模型。OpenAI内部测试显示,在高风险提示下,它的幻觉率比上一代降低了52.5%。用户标记过事实错误的真实对话中,不准确陈述减少了37.3%。

    GPT-5.5 Instant的输出也更简洁了,相同提示下输出字数减少30.2%。以前那种”好的!我很乐意帮助您…”的废话开头,现在少多了。

    不过有个细节值得注意:52.5%的幻觉降低,是在开启工具使用的高风险提示下测得的数据。如果不开启工具,纯靠模型自己生成长文本,GPT-5.5的幻觉率仍有86%,远高于Claude Opus 4.7的36%。所以,它的事实性优势主要来自工具引导和上下文工程,而不是基础模型本身有多牛。

    Codex CLI偷偷升级成了”持久自主运行时”

    5月7日到26日,Codex CLI连发4个版本。表面上是加了Vim编辑支持、修了几个bug、改进了UI。但5月21日v0.133.0的更新,才是这波操作的核心:目标模式(Goals Mode)默认开启

    这个”目标模式”是干嘛的?简单说,就是你定义一个结果和成功标准,然后Codex可以自己跑几个小时甚至几天,而且进度是跨轮次、跨会话、跨机器持久化的。目前这个功能在CLI、IDE扩展、ChatGPT应用里都已经正式可用。

    这意味着什么?以前你让AI帮你写代码,它写完就完事儿,你得自己测试、自己修bug、自己接着往下做。现在你可以直接甩给它一个目标,比如”把这个项目的所有单元测试覆盖率提升到80%”,然后你就可以去干别的了,它自己会想办法、自己测试、自己迭代,直到达成目标或者卡住。

    Codex目标模式示意图
    Codex目标模式让AI可以自主工作数小时

    其他几个更新也挺实用:v0.131.0支持通用的”@”选择器,可以一次性搜索文件、目录、插件、技能;v0.134.0支持对话历史搜索,还支持按服务器配置MCP环境变量。这些看起来是小事儿,但堆在一起,就是在把Codex从”交互式编码助手”升级成”持久自主运行时”。

    ChatGPT for Excel和Google Sheets,这步棋下得挺大

    5月5日,ChatGPT for Excel和Google Sheets正式发布。这个功能是在Excel和Google Sheets里加个侧边栏,让ChatGPT直接读写你的电子表格。

    有两个概念值得注意:技能(Skills)是可复用的操作手册,教ChatGPT如何处理你这个组织的电子表格工作流、格式和审核步骤;应用(Apps)允许侧边栏连接外部数据源(比如金融数据、内部数据库),让推理基于正确的上下文,而不只是靠公式推理。

    这个动作的信号很清晰:OpenAI不想让ChatGPT只是个”聊天框”,他们想让它嵌入到你的工作流里。Excel和Google Sheets是全世界上亿人的日常工具,把AI直接塞进去,比让你打开个网页聊天的使用频率高多了。

    商业和企业版用户可以免费试用到2026年6月2日,之后就要按套餐积分配额计费了。这个时间节点卡得挺准,给你一个月时间尝鲜,然后就开始收费。

    记忆源(Memory Sources):个性化推荐背后的隐私陷阱

    5月18-20日,记忆源功能向Plus和Pro用户的网页端开放。这个功能的核心是:当ChatGPT给你个性化回答时,你可以查看它引用了哪些来源——过往对话、保存的记忆、自定义指令、文件库中的文件、已连接的Gmail账户邮件。

    每个来源都可以修正、删除或标记为”不相关”。共享对话不包含来源列表,所以共享边界处的隐私是受到保护的。

    紧接着,Google日历集成也来了:连接日历后,ChatGPT可以起草会议议程、推送生日提醒、为即将到来的旅行推荐餐厅。

    这里有一个明显的隐私权衡:你连接了Gmail或日历之后,其中的内容可能会在回答中露出来。如果你忘了已经连接了Gmail,然后问它”我们的Q2战略”,它可能会引用一封你早就忘了的邮件线程。建议定期去审计一下记忆源面板。


    GPT-5.6的影子:到底发没发布?

    5月中旬,有用户发现Codex日志中短暂出现过gpt-5.6的部署映射条目,但很快就消失了,回滚成了gpt-5.5。这个现象符合后端金丝雀测试的特征:把少量生产流量路由到实验版本,测量性能和行为。

    所以,GPT-5.6大概率是在开发中。Polymarket的交易者认为,2026年6月30日之前公开发布的概率是80-89%。但这是博彩市场的信号,不是厂商的承诺。

    OpenAI目前没有发布GPT-5.6的模型卡、API端点、基准测试或者发布日期。所以如果你在规划Q3的路线图,建议先基于GPT-5.5开发,保持模型ID可配置,方便后续一行代码迁移。任何假设GPT-5.6六月发布的路线图,目前都只是押注,不是承诺。

    跟Claude Opus 4.7、Gemini 3.1 Pro比,GPT-5.5赢在哪?

    2026年5月,这三款旗舰模型在Artificial Analysis智能指数上只相差约3分。差异化不再来自原始能力,而是各自的优势领域。

    • GPT-5.5:在代理执行领域领先,Terminal-Bench得分82.7%(Opus 4.7是69.4%),OSWorld 78.7%。它有全新的Codex目标模式运行时和最深入的第一方工具集成。
    • Claude Opus 4.7:SWE-bench Pro得分64.3%(GPT-5.5是58.6%),长文本事实性幻觉率36%(同基准下GPT-5.5是86%)。写作质量更优,更适合风险敏感的企业场景。
    • Gemini 3.1 Pro:纯推理能力领先,GPQA Diamond 94.3%,ARC-AGI-2 77.1%,而且价格更低(输出约12美元每百万token,不到GPT-5.5或Opus 4.7的一半)。

    选型建议挺直白:自主代理和Office嵌入工作流选GPT-5.5,代码审查和高信任长文本选Opus 4.7,成本敏感的大规模场景或多模态视频选Gemini 3.x。

    开发者这个月实际踩了哪些坑

    文档是一回事,生产环境是另一回事。这个月开发者实际踩过的坑包括:

    • Codex 40万 vs API 100万上下文不匹配:给Codex喂接近API 100万限制的提示会报错”超出模型上下文窗口”。Codex内上限需控制在40万token。
    • 推理token计费:思考token按输出费率计费,不是单独的等级,而且计入上下文预算。需要谨慎设置reasoning_effort
    • 长文本幻觉:GPT-5.5长文本事实性幻觉率86%,跟Opus 4.7的36%差距明显。无检索接地的情况下多段落事实生成,是这个模型的最大弱点。
    • Codex 0.134配置文件迁移:旧配置文件会被拒绝,需要显式传入--profile或更新配置文件到新schema。
    • 记忆源隐私:如果连接了Gmail或日历但忘了,相关邮件内容会在上下文相关的回答中露出来。共享前务必审计记忆源面板。

    写在最后

    OpenAI这波5月更新的核心逻辑,其实不是在比谁的模型更聪明,而是在布局”AI能不能真正替人干活”。GPT-5.5 Instant降低幻觉、Codex目标模式支持长时间自主运行、ChatGPT嵌入Excel和Google Sheets——这些都是在把AI从”聊天工具”推向”数字化员工”。

    竞争对手也没闲着。Anthropic的Claude Opus 4.7在事实性和代码审查上仍有优势,Google的Gemini 3.5 Flash在成本和多模态上发力。这场AI战争,已经从”谁的模型分数高”转向”谁能真正嵌入到用户的工作流里”。

    对于开发者来说,现在最务实的策略是:先基于GPT-5.5构建,但保持模型ID可配置。GPT-5.6大概率会在Q3发布,到那时候,一行代码就能切换过去。但在那之前,先把能用的功能用起来,比等着”下一代模型”更实际。

  • 2026年5月AI大模型密集发布:GPT-5.5、DeepSeek v4、Claude 4.6谁更胜一筹?

    GPT-5.5来了:OpenAI的又一次跳跃

    4月24日,OpenAI发布了GPT-5.5,官方描述是”迄今为止最智能、最直观的模型”。数字上的提升是实的:在Terminal-Bench 2.0测试中拿到82.7%,GDPval评测84.9%。

    但更值得关注的是它在Agentic coding(智能体编程)上的进步。写代码不再只是”补全下一行”,而是能自主规划多步骤任务、调用工具、自己debug。这对开发者来说,意味着AI编程助手真的从一个”聪明补全器”变成了”能一起干活的搭档”。


    DeepSeek v4:国产大模型的反击

    同一天,DeepSeek放出v4,推出Flash和Pro双版本。最炸裂的参数是1M+ token的超长上下文窗口——这意味着它可以一口气读完一整本技术手册,然后基于全书内容跟你对话。

    更妙的是它兼容OpenAI和Anthropic的SDK,开发者迁移成本几乎为零。加上本身就便宜,这波发布直接把”长上下文+低成本”的标杆拉高了。


    Claude Sonnet 4.6:接近Opus的性能,一半的价格

    3天后,Anthropic更新了Claude Sonnet 4.6和Haiku。核心卖点是”接近Opus级别的性能,但价格便宜得多”。对于已经在用Claude API做产品的团队来说,这个性价比提升是实打实的。

    这次更新还修了之前版本里推理不稳定和缓存出错的bug。对于生产环境用户来说,稳定性往往比基准测试分数更值钱。


    Google Gemini Pro & Flash:双版本策略的聪明之处

    Google也在同一天(4月27日)更新了Gemini Pro和Flash。Pro负责扛性能大旗,Flash负责低延迟和高并发场景。两个版本都支持1M token上下文窗口,多模态能力和推理能力都有明显提升。

    Google这波操作聪明在:不让用户做”性能vs成本”的单选题,而是两个版本各司其职。对于需要同时服务C端和B端的应用来说,这种组合很实用。


    IBM Granite 4.1:小参数模型的逆袭

    4月30日,IBM发布了Granite 4.1,参数只有8B,但性能居然能跟32B的MoE模型掰手腕。这件事传递的信号很清楚:堆参数不是唯一出路,数据质量和训练效率同样能打

    对于想在本地部署、或者推理预算有限的团队来说,这类小参数高性能模型是真正的香饽饽。大模型不一定非得”大”。


    四个趋势,定义接下来半年

    把这波发布潮放在一起看,有四个趋势已经很明显了:

    • 超长上下文正在变成标配。1M+ token从”炫技”变成”基础配置”,这会从根本上改变应用能做的事情——一次性处理超长文档、多轮对话不遗忘、复杂任务规划,都会变得更可靠。
    • 小参数模型崛起。DeepSeek v4和IBM Granite 4.1都在证明:聪明的训练比盲目的参数堆砌更有效率。这对降低推理成本、推动AI应用普及是好事。
    • Agentic能力成为新战场。从GPT-5.5到Claude 4.6,所有厂商都在强化”让AI不只是回答,而是主动完成任务”的能力。这是从”对话助手”到”智能代理”的关键一跃。
    • 监管压力在累积。欧盟AI Act的合规期限是2026年8月,没几个月了。技术在狂奔,但安全性和透明度基准测试的进度明显滞后。这波发布潮里,几乎每家都提到了”负责任的AI”,但真正做到多少,还得看。

    对开发者意味着什么

    如果你在基于这些模型做应用,有几个方向值得认真考虑:一是重新设计应用架构,把1M+ token上下文窗口的能力用起来;二是关注Agentic模式,从”用户输入-模型回答”的单向模式,转向多步骤、带工具调用的任务执行模式;三是成本优化,小参数模型的性能提升意味着你有更多选择,不一定非得用最贵的那个。

    2026年5月的这波模型发布,表面上是各家在比拼基准测试分数,实际上是AI从”技术演示”走向”大规模应用”的转折点。谁能把模型能力稳定、低成本、安全地交付到用户手里,谁就赢了。

  • GPT-5.5把316道黑客题做对292道,网络安全评测体系被AI干碎了

    2026年5月27日,澳大利亚研究机构Lyptus Research发布了一份让网络安全圈相当震惊的报告:GPT-5.5在316道进攻性网络安全任务中解出了292道,正确率高达92.4%,直接把这套评测体系干到了”饱和”状态——剩下的24道题不足以支撑有统计意义的能力曲线拟合,评估方法宣告失效。

    换句话说,用来衡量AI黑客有多危险的尺子,先被AI自己弄坏了。

    “我们2025年12月搭建这套测试时,选的还是全球最难的题。2026年3月数据就出现饱和苗头。到5月,饱和已经成为事实。”——Lyptus Research 报告

    316道题,覆盖了黑客的”全科”

    这套评测不是纸上谈兵。316道任务覆盖了7个基准领域,包括漏洞利用、CTF夺旗赛题目、真实CVE漏洞复现三类,每道题都设置了人类安全专家的完成时间作为基线参考。

    GPT-5.5的表现相当于什么水平?Lyptus的评估是:顶级黑客团队的水平。不是脚本小子的水平,是那些能在真实环境中找到零日漏洞、写出可靠利用代码的人的水平。

    更有意思的是Token预算对能力的影响。在最难的基准CyberGym上,GPT-5.5在200万Token预算下正确率只有54.4%;推到5000万Token时,正确率飙升至86.4%——同一个模型,只因为给的算力更充裕,正确率涨了32个百分点。英国人工智能安全研究所(AISI)的独立研究也证实:给到1亿Token时模型能力仍在上涨,还没看到平台期。


    AI黑客能力每5到6个月翻一倍

    Lyptus从2024年开始追踪相关数据,拟合出的增长曲线相当吓人:AI进攻性网络安全能力,每5到6个月翻一倍

    这个”时间地平线”指标衡量的是:一个AI系统完成顶级难度任务平均需要多少时间(通过不断增加算力预算来测量)。2026年初,Claude Opus 4.6的时间地平线是3.2小时,GPT-5.3 Codex是3.1小时。两个月后,GPT-5.5的时间地平线直接拉到了5.1小时——如果放开算力上限让它冲过12小时的测量上限,这条曲线根本画不出来。

    问题在这里:时间地平线方法论原本的假设是,总会有比当前模型能力更难的题来锚定曲线的拐点。但GPT-5.5把所有题都做完了,拐点消失了,曲线无法拟合。评测体系不是被证伪了,是被模型能力的增长速度远远甩在了后面。

    头部厂商已经在”控”了

    意识到这个能力水平意味着什么之后,头部厂商的动作相当迅速:

    • Anthropic:4月发布Claude Mythos Preview,但因为网络安全能力过强,决定不公开发布。配套推出了Project Glasswing,只把模型部署给关键基础设施的防御方使用。
    • OpenAI:给GPT-5.5的网络安全能力评级为”High”(只比最高级”Critical”低一档),所有攻击相关能力均通过”Trusted Access for Cyber”门控,不是谁都能调用。
    • METR独立评估:拟合出Claude Mythos的时间地平线至少为16小时,但无法给出精确点估计——这意味着连独立评估机构都跟不上模型的边界了。

    最麻烦的问题:闭源能力迟早会开源

    Lyptus测量了一个叫”适应缓冲期”的指标:从一个闭源前沿能力首次出现,到同等能力出现在开源模型里,平均时间差是多少。在进攻性网络安全领域,这个数字是5.7到13.1个月

    按当前的速度,Mythos和GPT-5.5级别的攻击能力,2026年年内就可能以开源形式落到任何人手里。到那时候,没有”Trusted Access”门控,没有使用场景限制,只有一块显卡和一点好奇心。

    网络安全圈子里的普遍看法是:防御方本来就需要假设”攻击者拥有无限资源”,但当一个高中生也能在本地跑一个GPT-5.5级别的攻击模型时,”无限资源”的假设就不再是理论讨论了。

    连”最易量化”的领域都跟不上了

    这份报告最让人不安的地方,其实不在92.4%这个数字本身,而在于它暴露了一个结构性困境:网络安全是少数有明确成功判据(漏洞找到了没有?系统打穿了没有?)因而相对容易量化的AI能力领域。连这个领域的评估体系都已经失效了,那些更模糊、更难量化的能力维度——推理、规划、社会工程——的评估困境只会更突出。

    如果AI能力真的按照每6个月翻一倍的速度增长,一年后是当前的4倍,两年后是16倍。在通往AGI乃至ASI的路上,失效的评估体系只会越来越多,而不是逐渐被修好。

    对于安全研究者来说,这份报告给出的信号很直接:静态防御规则已经不够用了。当攻击方可以用AI实时生成针对特定目标环境的漏洞利用代码,防御方也必须用AI来对抗AI——而且是同样聪明、同样快速的AI。

  • 2026年5月AI圈大事件:GPT-5.5来了,Kimi融资20亿美元,人形机器人走向工厂






    2026年5月AI圈大事件:GPT-5.5来了,Kimi融资20亿美元,人形机器人走向工厂

    5月的AI圈,信息量爆炸。OpenAI发布了GPT-5.5,国产AI企业Kimi即将完成20亿美元融资,人形机器人展览会在杭州开幕,苹果因为AI功能虚假宣传赔了2.5亿美元……如果你没时间每天刷新闻,这篇文章帮你一次性梳理完这个月的所有大事。

    GPT-5.5来了,这次主打”不胡说”

    OpenAI在5月发布了GPT-5.5 Instant,最核心的升级是”可靠性”。之前的版本在专业领域容易”一本正经地胡说八道”,5.5在医疗、法律、金融等高风险场景的准确性有了质的飞跃,幻觉率大幅降低。

    这个方向其实很明确:企业用户要的不是模型”能聊”,而是”说对话”。ChatGPT的使用量继续攀升,企业场景渗透加速,GPT-5.5算是踩在了正确的节奏上。

    AI行业的竞争,正在从”谁的模型更聪明”转向”谁的模型更可靠”。GPT-5.5的发布,是这个转向的一个标志性节点。

    Kimi即将完成20亿美元融资

    月之暗面旗下的Kimi即将完成一笔20亿美元的新融资,投后估值大幅攀升。这是2026年国产AI领域最大的一笔融资之一。

    Kimi这波势头很猛,长文本处理能力一直是它的招牌,现在融资到位,接下来在多模态、Agent方向的投入估计会加大。国产大模型这场仗,远没到终局。

    人形机器人走向工厂,不只是演示了

    5月14日至16日,HRTE 2026杭州国际人形机器人展览会举办,主题是”人形机器人赋能新型工业化”。多款新型人形机器人亮相,工业应用场景加速落地,产业链上下游企业集中展示。

    人形机器人正在从”实验室”走向”工厂”。2026年可能是人形机器人产业化的元年,这个判断现在看来越来越扎实了。

    苹果赔了2.5亿美元,AI虚假宣传的警钟

    苹果公司同意支付2.5亿美元,和解关于AI功能虚假宣传的诉讼。这件事给整个行业敲了一个警钟:AI产品的宣传必须实事求是,过度承诺的后果是很真实的。

    监管层面也在发力。AI生成内容的合规与安全成为新的关注重点,Deepfake(深度伪造)技术被滥用的案例持续增多。行业趋势正在从”炫模型”转向”拼安全”,安全性、隐私保护和系统集成能力正在成为新的竞争维度。

    其他值得关注的动态

    • Google把Gemini塞进了Gboard:AI不再是一个需要单独打开的App,而是融入了你打字的每一个瞬间。AI正在从”工具”变成”基础设施”。
    • 微软收购Fintool AI:将其全面整合进Office全家桶,Excel、Word、PowerPoint将获得更强大的AI金融分析能力。
    • 英伟达高层到访中国:带动A股AI板块集体上涨,汉得信息等AI全产业链概念股表现活跃。
    • 国内AI社区类产品市场爆发:市场规模同比增长182%,多款涵盖教育、办公、创作、社交的产品进入测试阶段。

    回顾这个月的AI圈,几个关键趋势非常清晰:模型能力持续提升,资本持续涌入,产业加速落地,安全成为新焦点。对于普通人来说,最重要的信息是:AI正在从概念走向实用。不管你是学生、职场人还是创业者,现在都是开始学习和使用AI的最佳时机。


  • GPT-5.5 Instant全面上线:ChatGPT默认模型升级,数学推理大涨24%

    OpenAI在5月5日把这周默认模型换成了GPT-5.5 Instant,替代了之前的GPT-5.3 Instant。这次升级不是小修小补——数学测试AIME 2025从65.4分拉到81.2分,多模态推理MMMU-Pro从69.2涨到76分。如果你用过GPT-5.3觉得数学推理还差点意思,这一版能感觉到明显进步。

    GPT-5.5 Instant 记忆功能更新
    GPT-5.5 Instant 新增记忆功能,可引用过往对话和关联Gmail账户(图源:OpenAI)

    幻觉率下降,但OpenAI没给具体数字

    OpenAI在公告里说GPT-5.5 Instant在法律、医疗、金融这些高风险领域的幻觉减少了,但没公布具体百分比。TechCrunch的报道也确认了这一点——知道它减少了,但不知道减少了多少。对比隔壁Claude时不时自己编造个引用来源,GPT-5.5 Instant这波升级至少在”不乱说”这件事上下了功夫。

    GPT-5.3 Instant的AIME 2025分数是65.4,GPT-5.5 Instant是81.2——这个跳跃幅度相当于从”能做对大部分”到”基本不会错”。多模态推理的提升同样显著,这意味着看图做题、理解图表这些能力也跟着涨了。

    新记忆功能有点东西

    这波更新最实用的功能,是GPT-5.5 Instant新增的记忆能力。模型现在可以引用你之前的对话记录、上传过的文件、甚至关联的Gmail账户内容来生成更个性化的回复。比如你之前跟它讨论过某个项目,下次接着问的时候它记得上下文,不用你重新介绍背景。

    • ChatGPT Plus/Pro用户:已可使用(网页版)
    • 移动端:即将推出
    • Free/Go Business/企业用户:未来几周内开放
    • 记忆来源可视化:用户可查看、编辑、删除记忆源

    默认模型这件事意味着什么

    ChatGPT的默认模型,全球有数亿人在用。把GPT-5.5 Instant设成默认,等于OpenAI在对用户说:这是目前综合体验最好的模型,不需要你手动切换。对比Anthropic那边要用户自己选Opus还是Sonnet,OpenAI的策略更直接——我帮你选好了,你就用这个。

    从GPT-5.3到GPT-5.5,中间隔了不到两个月。这个迭代速度说明OpenAI现在已经把模型升级做成了”持续交付”模式,而不是以前那种一年一次大版本的节奏。对开发者来说,这意味着API背后的模型能力在悄悄变强,但你不一定能感知到具体是哪天升级的。