分类: AI资讯

  • OpenAI发布GPT-5.5 Instant:减少幻觉、接入Gmail,大模型进入“可靠性竞赛”

    OpenAI发布GPT-5.5 Instant:减少幻觉、接入Gmail,大模型进入“可靠性竞赛”

    OpenAI又更新了,这次是GPT-5.5 Instant。说实话,大模型更新越来越频繁了,但这次有几个点我觉得确实值得关注。

    核心升级:减少幻觉+保持速度

    GPT-5.5 Instant取代了GPT-5.3 Instant,成为ChatGPT的新默认模型。从参数命名上就能看出来,这是一个侧重”即时响应”的版本。OpenAI这次最强调的改进是在法律、医疗、金融这些敏感领域减少了幻觉问题,同时保持了前代的低延迟。

    我觉得这个方向非常务实。说实话,现在的大模型在闲聊、写文案方面已经足够好了,真正让人不放心的反而是那些需要精确性的专业场景。如果GPT-5.5 Instant真的能显著降低医疗和法律领域的幻觉率,那这对于AI的实际落地来说,比数学竞赛分数提高几十个点要有意义得多。

    数据说话:AIME数学能力暴增

    不过数字确实也很漂亮。AIME 2025数学测试成绩从65.4直接飙升到81.2,提升了约24%。MMMU-Pro多模态推理从69.2涨到76。虽然AIME和普通人的日常使用场景关系不大,但这至少说明模型的基础推理能力确实在稳步提升。

    我比较关注的是,这种推理能力的提升能不能真正转化为日常使用中的体验改善。比如你在让它分析一份复杂报告的时候,是不是能给出更有深度的见解?在处理逻辑推理类问题的时候,是不是不那么容易”犯蠢”了?这些才是普通用户真正在乎的。

    记忆系统升级:Gmail集成是个杀手级功能

    这次更新中我认为最值得关注的功能,其实是上下文管理(Context Management)的升级。GPT-5.5 Instant现在可以搜索和回溯你过去的对话、文件,甚至直接访问你的Gmail。

    这意味着什么?意味着ChatGPT正在从一个”聪明的对话工具”变成一个”了解你的个人助手”。它能记住你之前的偏好、搜索你之前的文档、甚至查看你的邮件内容来给出更个性化的回答。

    当然,隐私问题也随之而来。OpenAI这次的应对方案是:记忆来源透明化——ChatGPT会在所有模型中显示记忆来源,帮助用户了解答案的生成依据。而且用户可以删除过时的记忆来源或纠正错误答案。分享对话时,接收方也看不到记忆来源。我觉得这些措施算是做到了最基本的隐私保护,但对于更敏感的用户来说,可能还不够。

    GPT-4o退役的教训

    说到这里,不得不提一下GPT-4o退役的事。今年2月份GPT-4o正式弃用的时候,用户的反弹非常强烈。有些人甚至发起了请愿,把GPT-4o描述为”最好的朋友”。这听起来有点夸张,但我觉得它反映了一个真实的问题:当AI工具成为人们日常生活的一部分时,模型更迭就不只是一个技术决策了

    OpenAI这次吸取了教训,GPT-5.3将作为付费用户的可选项保留三个月,而不是直接一刀切地退役。我觉得这个做法更温和也更合理。

    我的看法

    GPT-5.5 Instant给我的整体感觉是:OpenAI正在把大模型从”很聪明的聊天机器人”推向”可靠的个人助手”。减少幻觉是为了让你敢在重要场景用,Gmail集成是为了让它更了解你,记忆来源透明化是为了让你放心用。

    大模型的竞赛已经从”谁的分数更高”变成了”谁更可靠、更实用”。这个转变我认为对整个行业来说是个好信号。毕竟,分数再高,如果普通用户不敢放心使用,那也只是实验室里的玩具而已。

  • Google在Android端放大招:Gemini不只是助手,而是你的“超级代理”

    Google在Android端放大招:Gemini不只是助手,而是你的“超级代理”

    说实话,看完Google在Android Show: I/O Edition上发布的内容,我觉得移动端AI的竞争正式进入了一个全新阶段。这次的更新不是简单地在手机上加个AI按钮,而是直接让Gemini变成一个能跨应用、跨场景帮你干活的“超级代理”。

    从“回答问题”到“替你干活”

    我觉得这次最核心的变化,是Gemini从被动式的问答工具升级成了主动式的任务执行者。具体来说,你现在长按电源键,对着Gemini说“帮我把笔记里的购物清单加到购物车里”,它就能自动跨应用完成这个操作——先去你的笔记App找到清单,再去购物App把商品逐一添加,最后等你确认后完成下单。

    这不是概念演示,Google说这些功能今年夏天就会在三星Galaxy和Pixel设备上率先上线。我觉得这个节奏其实挺有意思的:三星作为最大的Android厂商优先适配,说明Google在生态合作上确实下了功夫。

    不过说实话,这个多步骤任务执行功能让我既兴奋又有点担心。兴奋是因为它确实能大幅提升效率,尤其是那些需要反复切换App的操作流程。担心的是,当AI开始替你点击“确认付款”按钮的时候,隐私和安全性就成了绕不开的问题。Google在表单填写功能上采用了opt-in模式(默认关闭),这个做法我觉得是对的,给了用户充分的控制权。

    “Vibe Coding”:普通人也能做Widget开发者

    这次发布会上还有一个让我眼前一亮的功能——“Create My Widget”。简单来说,你只需要用自然语言描述你想要什么功能的小组件,AI就能帮你生成出来。

    比如你可以说“每周给我推荐三个高蛋白备餐食谱”,然后一个符合Material 3设计规范的Widget就出现在你桌面上了。不需要写一行代码,不需要懂开发。说实话,我觉得这可能是这次发布会中最具“颠覆性”的功能。

    为什么这么说?因为它降低了UI开发的门槛。以前你需要一个开发者才能做的自定义小组件,现在每个人都可以用一句话创建。这种“自然语言即编程”的思路,其实就是AI民主化开发的一个缩影。虽然Nothing公司去年就做过类似的功能,但Google把这种能力整合到了Android系统层面,影响力完全不在一个量级。

    Gboard也要被AI重塑了

    还有一个值得关注的更新是Gboard的语音输入功能。Google给这个新功能起名叫“Rambler”,它不仅能把你说的话转成文字,还能用Gemini的多模态能力理解你的语气,并且自动帮你去掉那些“嗯”“啊”之类的口头禅。

    说实话,语音转文字不是新鲜事,但能做到理解语气、自动润色输出格式,这个体验提升还是挺大的。对于经常需要语音录入的人来说,这绝对是一个实用功能。

    我的看法

    我觉得Google这次在Android端的AI布局,真正瞄准的是一个趋势:AI正在从“工具”变成“代理”。以前我们用AI是去问它问题、让它帮我们分析数据,现在AI开始直接替我们执行操作、完成流程。这种转变对于用户来说,意味着手机使用方式的根本性变化。

    但我也想说一句:这些功能落地后,用户体验好不好,还得看实际表现。跨应用操作能不能稳定运行、误操作率有多高、不同手机厂商的适配情况如何——这些才是真正决定成败的关键因素。

    总的来说,2026年下半年的Android手机,可能会让人觉得越来越像一个“长了脑子”的个人助理。而Google这次交出的答卷,至少在产品思路上,我认为是走在正确方向上的。

  • 前沿AI网络攻击能力突破阈值:Claude Mythos率先通过32步攻击测试

    说出来你可能不信,但AI驱动的网络进攻是遥远未来这个判断,已经被数据彻底推翻了。

    AISI的测试结果让人睡不着觉

    英国AI安全研究所(AISI)最近做了一件事:他们让Anthropic的Claude Mythos Preview去跑一个32步的「最后一批」(TLO)测试范围。这个测试范围是什么概念?它是一个模拟企业网络的完整攻击链路,从侦察到完全域控制,通常需要人类红队投入20个小时才能走完。

    结果呢?Mythos在10次运行中成功了3次。

    说实话,第一次看到这个数据的时候我没太当回事——10次成3次,成功率30%,好像也不怎么样?但AISI的评估接着说:在专家级任务上,Mythos的成功率达到73%

    这就很恐怖了。

    OpenAI的GPT-5.5几乎同步追上

    更让人不安的是时间线。Claude Mythos公布结果3周后,OpenAI的GPT-5.5公布了几乎完全一致的能力画像:

    • 10次端到端测试中成功2次
    • 专家级任务成功率71.4%
    • 同样存在无防御方的测试限制条件

    两个模型的能力曲线几乎重合。这不是巧合,而是前沿AI在网络进攻能力上已经形成了稳定的技术范式。

    每4个月翻倍意味着什么?

    AISI估计,当前前沿进攻性网络能力每4个月翻倍

    等等,这个速度比2025年底的每7个月翻倍还要快。如果按这个速度线性外推(虽然实际是指数增长),到2026年底,前沿AI可能就能在无人干预的情况下完成绝大多数中级红队任务。

    我觉得这里有个被严重低估的风险:当前的基准测试如果没有对抗性防御层,根本区分不出前沿模型的能力差异。换句话说,我们可能根本不知道AI在网络进攻上到底有多强,因为我们的测试环境太友好了。

    传统网络安全厂商的生存危机

    这个变化最直接的受害者是谁?是那些依赖静态签名、规则的传统网络安全厂商。

    它们的护城河——特征库、规则集、人工分析的专家经验——正在被进攻性AI循环超越。AISI的报告直言不讳:传统检测手段已经过时了

    那谁有机会活下来?CrowdStrike、Palo Alto、Microsoft Defender这些集成了XDR平台的厂商,它们掌握着防御智能体所需的编排层。但前提是它们能推出真正的AI原生架构,而不是把传统技术栈包装一下就号称AI驱动。

    一个值得深思的悖论

    这里有个我很在意、但行业讨论不多的悖论:

    我们正在用AI来防御AI驱动的网络进攻。但防御AI需要的数据、算力、响应速度,和传统安全工具完全不在一个量级上。这不只是技术升级的问题,而是整个安全行业的基础设施要重构的问题。

    而那些手里握着大量防御数据的平台厂商,会不会借此形成新一轮的垄断?


    参考资料:State of AI: May 2026, Air Street Press, AISI Assessment Report

  • 中国AI编码模型打破”落后6-9个月”框架:开源权重+低成本改写全球格局

    说实话,当我看到2026年4月这波中国AI编码模型的密集发布时,第一反应是:那个”中国AI落后6-9个月”的老框架,真的该扔进历史垃圾桶了。

    12天,4家实验室,一场静悄悄的能力赶超

    从4月底到5月初,短短12天里,4家中国AI实验室接连发布了各自的最新编码模型,而且全部是开源权重。这可不是小打小闹的demo,而是实打实能打的工程级模型:

    • Z.ai的GLM-5.1
    • MiniMax的M2.7
    • Moonshot的Kimi K2.6
    • DeepSeek的V4

    最关键的是,它们在SWE-Bench Pro这个权威编码基准上的得分全部落在56-59分区间——什么概念?这个得分已经和西方前沿模型持平了。

    价格才是真正的杀手锏

    如果能力持平还不够震撼,那成本数据绝对让你倒吸一口凉气:这4款模型的推理成本,最高不超过Claude Opus 4.7的三分之一

    我觉得这里有个被很多人忽略的逻辑:AI能力如果可以低价获取,那么”前沿模型的护城河”到底在哪里?如果Kimi K2.6或者DeepSeek V4能以1/3的价格做到Opus 4.7差不多的事情,那企业采购决策会不会悄然生变?

    这不是简单的性价比问题,而是整个AI供应链的话语权在转移。

    “落后6-9个月”为什么不成立?

    State of AI报告里有一句话我很认同:”中国落后6-9个月”的旧框架在智能体编码领域已不成立

    NIST的CAISI评估显示,DeepSeek V4的跨域基准综合表现落后美国前沿约8个月,但DeepSeek自己的模型卡显示V4-Pro与Opus 4.6、GPT-5.4持平。两个结论都是对的——只不过评估的维度和基准不同而已。

    这其实揭示了一个更深的真相:AI能力的比较,已经不再是单一时间轴上的先后问题,而是评估者、支架工程、基准设计的综合博弈。当多个最优模型来自中国且为开源权重时,”追赶者”这个标签就已经失效了。

    开源权重:中国AI的”农村包围城市”?

    还有一个细节值得琢磨:这4款模型全部开源权重。我觉得这不是巧合,而是一种极其聪明的战略选择。

    开源意味着什么?意味着全球开发者可以本地部署、可以微调、可以嵌入自己的产品而不用看任何人的脸色。当西方实验室还在纠结”该不该开源”的时候,中国实验室已经用开源完成了全球开发者生态的布局。

    Kimi K2.6发布时展示了一个12小时连续工具使用轨迹,演示了将推理引擎移植到Zig的完整过程——这种”晒能力”的方式本身就很有说服力,比发一篇论文直观多了。

    这件事的真正影响可能还没显现

    我觉得现在讨论”中国AI是否赶超”还为时尚早,但有一个趋势已经很清晰了:在整个AI领域最具经济影响力的能力(编码和智能体工程)上,多个最优模型来自中国且为开源权重,这件事的长期影响可能被严重低估了。

    企业采购、开发者工具链、云服务定价、甚至AI安全的研究议程——所有这些都将因为这个变化而重新调整。我不是在说”中国AI已经全面领先”,而是说”全面落后”这个叙事已经失去了事实基础。


    参考资料:State of AI: May 2026, Air Street Press

  • Google I/O 2026前瞻:这次不只是软件秀,硬件也要来真的

    下周的Google I/O,可能是近几年来最值得期待的谷歌大会。


    为什么今年格外重要?

    说实话,之前几年的Google I/O给我的感觉一直是”例行公事”——Android新版本、新Pixel手机、一些AI功能更新…每年都差不多。

    但今年不一样。Gemini已经完全渗透到谷歌的每一个产品线,而且AI眼镜市场正在从概念走向成熟。这次I/O,可能会决定谷歌未来3-5年在AI时代的站位。


    亮点一:Gemini 4.0(最期待)

    如果要我猜最大的发布,我会押Gemini新一代模型。

    目前的Gemini已经很强大了,但这次可能带来更震撼的升级:

    • 笔记本功能可以把你研究某个主题的所有资料集中管理
    • NotebookLM同步能自动生成视频概览、图表等可视化内容
    • 动态模拟——只需要说”给我展示一下”,就能创建交互式可视化

    说实话,”动态可视化”这个功能让我特别期待。如果真的能用自然语言创建图表和模拟演示,那演示工具市场可能会被彻底颠覆。


    亮点二:Android XR眼镜——这次来真的

    2013年Google Glass失败后,谷歌沉寂了很久。

    但现在AI时代完全不同了。Meta Ray-Ban眼镜已经证明这类产品可以流行,市场已经验证了需求。

    这次I/O,Android XR眼镜应该会正式亮相。三星已经推出了基于这个平台的Galaxy XR头显,所以技术已经ready了。

    关键问题是:谷歌会怎么定义这个产品?

    从曝光的功能看——抬头显示通知、实时翻译、Gemini Live集成——似乎走的是”实用路线”,而不是当年Glass那种”炫技路线”。

    👓 历史回顾:2013年Google Glass因隐私争议和”精英主义”形象遭到强烈反对,甚至出现了”Glassholes”这个贬义称呼。


    亮点三:Aluminum OS——两个系统的”合体”

    这是我觉得最有趣的一个悬念。

    谷歌正在研发一个融合Android和ChromeOS的新系统。如果真的实现了,以后笔记本电脑、平板、手机之间的界限会彻底模糊。

    想象一下:一台笔记本可以运行完整的Android应用,同时又有桌面级的Chrome浏览器体验。这对开发者来说意味着什么?对用户来说又意味着什么?

    我觉得这可能是本次大会最重要的”隐藏大招”,虽然它可能不会被大篇幅宣传。


    我的期待

    说实话,比起具体产品发布,我更期待看到谷歌如何定义AI时代的交互方式

    手机时代,触控交互重新定义了一切。AI时代,下一个主流交互范式会是什么?

    可能是语音,可能是手势,也可能是AI眼镜带来的”视野中的信息层”。

    下周的I/O,可能会给出一些答案。

  • Anthropic Q1收入暴涨80倍!AI赛道正式进入”商业化决赛”

    Anthropic用一份惊人的财报证明了:AI公司不只可以讲故事,还可以真正赚钱。


    从”小而美”到”超级独角兽”

    说实话,我之前对Anthropic的印象一直是”技术很强、商业化很佛系”。毕竟背靠Google和Amazon两位金主爸爸,似乎没必要那么着急变现。

    但最新数据直接打了我的脸——Anthropic Q1收入同比增长80倍,ARR(年度经常性收入)已经突破440亿美元。

    这是什么概念?440亿美元已经相当于一个中大型科技公司的体量了。而且是在AI赛道普遍还在”烧钱换增长”的背景下实现的。

    💡 小科普:ARR是Annual Recurring Revenue的缩写,即年度经常性收入,是SaaS公司最核心的指标之一。


    算力即护城河:与SpaceX的超级合作

    更让我惊讶的是他们的基础设施布局。

    Anthropic刚刚与SpaceX签署了Colossus 1超级计算机的合作协议——220,000+块NVIDIA GPU、300MW算力

    300MW是什么概念?一个小型城市的用电量。

    这波操作的逻辑很清晰:算力就是AI时代的护城河。谁掌握了更多算力,谁就能训练出更强的模型,谁就能吸引更多付费客户。


    Agentic AI:从玩具到印钞机

    Q1增长80倍的背后,我认为最关键的原因是Agentic AI(AI智能体)的商业化落地

    他们内部有个叫”Project Deal”的项目——69个AI Agent在分类市场上完成了186笔交易。这不是PPT上的Demo,是真金白银的收入。

    这说明什么?企业用户终于愿意为”能干活”的AI买单了。不是聊天机器人那种玩具,而是能自动化完成业务流程的智能体。

    🤖 划重点:Agentic AI(AI智能体)是能够自主完成复杂任务的AI系统,如自动处理订单、数据分析、客户服务等。


    我的思考

    说实话,Anthropic的爆发让我重新审视了AI赛道的竞争格局。

    之前大家都在说OpenAI是绝对的老大,但看看数据:Anthropic ARR 440亿+增长80倍,DeepSeek正在谈450亿估值融资,国内的GLM、MiniMax、Kimi也在疯狂追赶。

    AI已经进入”商业化决赛”阶段了。 光有技术不行,还得能变现。这波浪潮里,能活下来的要么是技术绝对领先,要么是商业化能力超强。

  • AI专家和普通人之间的鸿沟,正在越拉越大

    AI专家和普通人之间的鸿沟,正在越拉越大

    AI发展

    前几天看到斯坦福大学发布的年度AI报告,有个数据让我印象挺深:美国只有10%的普通人对AI感到兴奋,而高达56%的AI专家相信AI会让美国变得更好。这差距,不是一般的大。

    更让我意外的是,这股反AI情绪的主力军,居然是年轻人。调查报告显示,Z世代虽然天天在用AI,但反而越来越悲观、越来越焦虑。这个结论,说实话有点颠覆我的认知——按理说,年轻人应该是最先拥抱新技术的群体才对。

    仔细想想,其实也不难理解。我们每天刷到的新闻,不是某某公司用AI裁员,就是电价要涨、因为数据中心太耗电了。对普通人来说,AI再高大上,也比不上月底的工资条来得实在。反观那些AI大佬们,张口闭口都是AGI(通用人工智能)、超级智能,听着就像在聊科幻片。

    这种”鸡同鸭讲”的局面,最近闹出了不少动静。前阵子OpenAI CEO山姆·奥特曼的家被人袭击,社交媒体上的反应两极分化——圈内人震惊于这种暴力行为,但民间评论区的画风却是另一回事,甚至有人把它跟之前一些极端事件相提并论。这种情绪的蔓延,值得警惕。

    报告里还有几个数据挺有意思:84%的AI专家认为AI会改善医疗,但只有44%的普通人这么想。73%的专家看好AI对工作的影响,而公众这边只有23%。69%的专家认为AI对经济有益,普通人这边只有21%。

    最让我意外的是关于就业的预测——64%的美国人觉得AI会导致失业,但AI专家们反而没那么悲观。这就有意思了,到底是专家们太乐观,还是普通人太悲观?

    还有个数据值得关注:美国人对政府监管AI的信任度只有31%,在全球主要国家里排名最低。新加坡最高,达到81%。但与此同时,41%的美国人觉得现有的监管力度还不够,只有27%担心管得太严。

    说到这里,我想聊聊我自己的观察。我身边做技术的朋友,大多数对AI是积极拥抱的态度,觉得这是工具革命,是提效神器。但做传统行业的朋友,普遍更谨慎,有的甚至有点抵触。这种分歧,不只是认知问题,更多是利益站位不同——受益于AI的人和可能受损的人,想法自然不一样。

    那么问题来了:这种鸿沟会越来越大吗?我个人的判断是,短期内可能还会加剧。毕竟AI技术迭代太快,普通人很难跟上节奏。但长期来看,当AI真正渗透到各行各业,大家发现”原来这玩意儿也没那么可怕”的时候,态度可能会慢慢转变。

    关键是,在这个过渡期里,怎么让AI发展的红利更均匀地分配,让更多人受益,而不是只肥了少数人。这才是真正需要解决的问题。

    至于我们普通人,与其焦虑,不如早点学会用AI。毕竟,会用工具的人,永远比被工具替代的人多一条路。