标签: 大模型

  • 千问接入淘宝:阿里把AI购物这件事做透了

    对话就能买东西,阿里这次玩真的

    阿里巴巴最近把通义千问和淘宝打通了。不是那种噱头式的”AI购物助手”,而是真正能让用户通过对话完成浏览、比价、下单全流程的整合。你在千问App里说一句话,它就能帮你把商品找好、对比完毕、直接下单。

    这套系统接入了淘宝和天猫超过40亿件商品。40亿是什么概念?基本上你能想到的东西都在里面了。以前要用关键词搜索、翻页、对比详情页,现在直接跟AI说你想要什么,它帮你搞定。

    传统电商的逻辑是”人找货”——你得知道自己要什么、怎么描述、哪个关键词有效。AI购物的逻辑是”对话即交易”——你只需要表达需求,剩下的事AI帮你完成。

    淘宝里头也有AI助手了

    阿里这套打法挺聪明的,不是只做一个独立的AI购物App,而是双向打通。千问App能调用淘宝的商品库,淘宝站内也上线了千问赋能的AI购物助手。

    淘宝里头的AI助手还加了几个实用功能:虚拟试穿、30天价格走势追踪。这些功能单独看不算新鲜,但跟对话式购物结合起来,体验就完全不一样了。你可以直接问”这件衣服我穿好看吗”,AI帮你试穿;也可以说”这个价格划算吗”,AI给你看价格走势。


    依托专属”技能库”,千问还能帮你管理物流、处理售后。以前买完东西要查物流得去淘宝App,要退货得找客服,现在直接在对话里说一声就行。

    中外电商的AI路数不一样

    看看国外的玩法,就会发现阿里的打法挺特别的。亚马逊也在用AI优化购物体验,但它不敢让你直接通过AI完成交易,担心失控。加拿大电商平台Shopify倒是接了AI助手,但它用的是第三方的,自己不研发。

    阿里这种”我有大模型、我有电商平台、我把它们打通”的路数,中外都没几家能抄。Google有模型但没电商,亚马逊有电商但模型不够强,只有阿里两家都有。

    这种全链路打通,才是AI商业化真正有力的打法。不是做个聊天机器人让你玩,而是让AI真正进入交易环节、产生实际收入。


    AI购物到底是噱头还是趋势

    肯定有人会说,这不就是个升级版的”智能客服”吗?其实差别挺大的。智能客服是”你问它答”,而且通常只能处理固定流程里的问题。AI购物助手是”你说需求,它帮你完成交易”,主动权在用户手里,但执行权在AI手里。

    这种模式能不能成,关键看两件事:一是AI推荐的准确性,别你想要的跟它给的不是一回事;二是用户对AI做决策的信任度,敢不敢让它帮你下单、处理售后。

    阿里敢全线铺开,说明它在内部测试里对这两件事都有底气。接下来几个月,看用户买不买账就知道了。

  • 前OpenAI CTO放大招:Thinking Machines实时交互模型200ms响应

    前OpenAI CTO放了个大招

    Mira Murati离开OpenAI自己创业才一年多,前几天直接把第一个模型甩了出来。不是那种传统的”你问一句我答一句”的回合制AI,而是真正能实时互动的交互模型。200毫秒的响应延迟,你随时可以插话打断,AI也能同时听、说、看、调用工具。

    这套系统叫TML-Interaction-Small,采用的是2760亿参数的混合专家架构,每次推理只激活120亿参数。关键是它把前后台拆开了:前台专门维持对话流畅,200毫秒为一个时间片持续接收信息;后台负责复杂推理和工具调用,结果流式返回前台,不会打断你的说话节奏。

    200毫秒是什么概念?人说话时自然的停顿间隔大约是200-300毫秒。也就是说,这个模型的响应速度已经接近人类对话的节奏了。

    不只是速度快

    以前那些号称”实时”的语音AI,本质上都是把语音识别、语言模型、语音合成这几个模块拼在一起,中间靠外部工具协调。你说话的时候AI只能等着,说完一段它才开始处理,这就是典型的”回合制”。

    Thinking Machines这套系统是原生实时交互,从架构层面就设计成可以交错处理音频、视频、文本的流数据。它用的编码方案也挺聪明:音频用dMel轻量编码,图像用hMLL编码,所有组件跟Transformer主干网络一起训练,不用单独的编码器拖慢速度。


    在FD-Bench v1.5基准测试里,这个模型拿了77.8分。作为对比,OpenAI的GPT-Realtime-2和谷歌的Gemini 3.1 Flash Live都没超过它。响应延迟0.40秒,比GPT-Realtime-2快了大概4倍。

    钱和人都不缺

    Murati这个人挺厉害的,在OpenAI当CTO的时候就是技术核心人物之一。她出来单干,投资人直接给了20亿美元种子轮,估值砸到120亿美元。团队里还有FAIR实验室的前研究员Piotr Dollar这种级别的人物。

    算力方面也没拖后腿,跟英伟达、谷歌分别签了超过10亿美元的合作协议,拿到基于GB300芯片的超级计算资源。这种配置,基本上就是把”我要做顶级AI”写在脸上了。

    团队自己说几个月里迭代了12个版本,训练日志写了137页。这种折腾劲,倒是很像早期OpenAI的风格。


    真正的交互应该是什么样

    现在大家用ChatGPT语音模式或者Alexa那种智能助手,体验上总感觉差了点什么。你不能在它说话的时候插话,它也不能在你还在想怎么表达的时候就开始回应。这种”半双工”的交互方式,本质上还是把AI当成一个高级搜索引擎来用。

    Murati想做的,是让AI真正像一个人一样跟你对话。你可以随时打断,它可以同时处理多件事,后台在跑复杂推理的时候前台对话不受影响。这种体验,才是大家一直在说的”贾维斯”该有的样子。

    当然现在这个模型还只是研究预览版,正式开放还要等几个月。但方向已经很明确了:AI交互的下一个战场,不是谁的模型参数更多,而是谁能真正做到”自然对话”。

  • OpenAI连发三个语音模型,这次不只是”能说话”

    OpenAI连发三个语音模型,这次不只是”能说话”

    5月7日凌晨,OpenAI一口气发了三款音频模型:GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。官方说法是让开发者能构建”在用户说话时推理、翻译和转写”的实时语音产品。三款模型已经开放给开发者测试了。

    这次更新的重点在于”分工”。三款模型各管一摊事:GPT-Realtime-2管实时语音Agent,GPT-Realtime-Translate管实时翻译,GPT-Realtime-Whisper管实时转写。这个打法很OpenAI——不只要做最好的单一模型,还要把整个语音AI的赛道拆成几块,各自做到极致。

    OpenAI GPT-Realtime-2 语音模型
    GPT-Realtime-2 是 OpenAI 首个具备 GPT-5 级推理能力的语音模型(图源:OpenAI)

    GPT-Realtime-2:从”能说”到”会说”

    GPT-Realtime-2是这次更新的主角。OpenAI官方的说法是,这是第一款具备”GPT-5级推理”的语音模型。这个模型被设计来处理复杂请求、调用工具、处理对话中的打断,还能在更长的语音会话里保持上下文。

    这些能力对应的都是语音Agent落地时最头疼的问题。比如一个用户想咨询买房的事,或者想改签机票,这些场景都可能包含一大堆条件和多轮确认。上下文窗口从32K提升到128K之后,模型可以在更长的实时对话里保留前面出现过的信息,不会聊到一半把前面说的话忘了。

    GPT-Realtime-2在Big Bench Audio测试上比上一代GPT-Realtime-1.5高15.2%,在Audio MultiChallenge上高13.8%。这两个指标衡量的是模型在音频输入、多轮语音、复杂指令和上下文整合方面的能力。

    还有一个很实用的细节:可调推理强度。你可以根据场景选择用多少算力。多数生产场景可以先使用较低的推理强度,优先保证通话里的响应速度;遇到更复杂的客服、预订、排障任务,再提高推理强度,用更多计算换取更完整的判断。这个设计很接地气——语音交互最怕的就是卡顿,用户在电话里等一两秒就会觉得”这AI不行”。


    已经有企业在用了,效果还不错

    OpenAI公布了几个已经在测试的企业用户:美国房地产网站Zillow、旅游预订平台Priceline、德国电信。这些都不是小打小闹的Demo,而是真实业务场景。

    Zillow在用GPT-Realtime-2构建可以理解住房条件并安排看房的语音助手。他们说,在最困难的对抗性测试中,经过prompt优化后,电话任务成功率从69%提升到95%。这个提升幅度很夸张,但也说明语音Agent在垂直场景里确实能干活了。

    Priceline的用例更典型:旅游预订链条很长,用户可能要查航班、订酒店、调整日期、处理延误、比较价格,还可能在境外需要翻译。语音Agent如果能稳定接入后台系统,就有机会把”问答”推进到”办事”。这个跨越才是语音AI真正有价值的地方。

    另外两款模型:翻译和转写

    GPT-Realtime-Translate主打实时语音到语音翻译,支持70多种输入语言到13种输出语言。传统语音翻译常常要求说话人停顿,系统等一句话结束后再翻译;而GPT-Realtime-Translate更接近连续口译的形态,说话人讲话时它就能跟上节奏。

    GPT-Realtime-Whisper则强调实时流式转写,可以在说话人讲话时生成字幕、会议记录和工作流更新。它的价格最便宜,只有0.017美元/分钟。

    三款模型放在一起看,OpenAI已经把实时音频拆成了三个明确入口,价格和延迟要求各不相同。奥特曼想要的可能是”通吃”——不管你要做语音客服、跨语言会议还是实时字幕,都得用我的API。


    语音AI这波竞争,正在从”像人”变成”能办事”

    这个市场里已经有一堆强势玩家了。ElevenLabs今年2月完成5亿美元D轮融资,估值110亿美元;Deepgram今年1月完成1.3亿美元融资,估值13亿美元,服务1300多家客户;Cartesia的Sonic 3模型已经有1万多客户使用,主打90毫秒低延迟。

    OpenAI的优势在于模型栈——它可以把整个企业调用TTS的链路放在同一个开发者平台里。对开发者来说,少接几个供应商,就少一些延迟、集成和运维成本。但语音市场并不好啃,每家都有自己的地盘和忠实客户。

    从目前企业用户的测试反馈来看,GPT-Realtime-2确实在某些场景里把语音Agent的完成率拉到了一个可用的水平。但这波”从对话走向执行”的转型能不能真正跑通,可能还得看接下来半年这些早期客户的真实业务数据。

  • Google I/O 2026 Day 1直击:Gemini 4.0、Omni多模态、XR眼镜齐亮相

    今天Google I/O 2026正式开幕,谷歌一口气发布了多个重磅产品。看完整个发布会,感觉谷歌这次是认真了,不再是以前那种”我们有个很酷的研究项目”的画饼风格,而是实打实地把AI塞进了每一个产品线里。

    Gemini 4.0:不止是基准测试

    Gemini 4.0这次是真的来了。谷歌没有只拿基准测试分数说事,而是把重点放在了实际应用场景上——Workspace集成、多模态推理、智能体可靠性,这些都是企业用户真正关心的东西。

    外界预期Gemini 4.0在多模态推理上会有显著提升,如果它能接近Claude Mythos Preview的94.6% GPQA成绩,那谷歌就真的把今年早些时候丢掉的话语权给抢回来了。

    谷歌的优势在于生态。安卓30亿+设备、搜索数据、Workspace 2亿+用户,这不是OpenAI或者Anthropic短时间内能追上的。

    Gemini Omni:文本+图像+视频统一管线

    这次最让我意外的是Gemini Omni。它不是Veo的升级版,而是一个统一的文本/图像/视频生成管线,可以在对话窗口里直接生成和编辑视频,还会自动配背景音乐。

    早期泄露的测试报告显示,Omni在提示词保真度和音频质量上都比Veo 3.1强。如果这套系统正式上线,谷歌就是第一个在消费级场景里提供全模态统一生成能力的厂商。叠加安卓生态的分发优势,这个组合拳确实不好接。

    Google I/O 2026
    Google I/O 2026 Day 1 发布会现场

    Android XR眼镜与Aluminium OS

    硬件方面,谷歌和三星、Warby Parker、Gentle Monster、XREAL合作的Android XR眼镜正式亮相。无屏版本重80克以内,售价379-499美元,搭载骁龙AR Gen 3,延迟200ms。这个规格如果能兑现,Meta的Ray-Ban系列可能要感受到压力了。

    更值得关注的是Aluminium OS,这个基于安卓开发的系统将替代ChromeOS,首批笔记本由宏碁、华硕、戴尔、惠普、联想生产,2026年秋季上市。谷歌这是在把安卓的势力范围从手机扩展到PC。


    Gemini Spark:谷歌版的AI智能体

    Gemini Spark是这次发布的一个容易被忽略但很重要的产品。它能自动化跨应用任务——整理收件箱、生成会议简报、追踪新闻事件进展。这和微软的Copilot、Anthropic的Claude Cowork是一个赛道的产品,但谷歌的优势在于它自己的应用生态(Gmail、Calendar、Drive、Docs)。

    总体来看,谷歌这次的策略很清晰:不追求单一的基准测试冠军,而是把Gemini铺到所有能铺的地方——手机、眼镜、笔记本、云端、企业应用。这种打法短期内在基准测试上可能不够性感,但长期来看,生态黏性才是最难被颠覆的壁垒。

  • Anthropic估值冲至1.2万亿美元,超越OpenAI登顶AI王座

    Anthropic最近在链上Pre-IPO市场的隐含估值冲到了1.2万亿美元,正式超过OpenAI,成为全球AI新王。这个数字有多夸张?比OpenAI高出20%,如果以此估值上市,Anthropic将直接空降全球第11大上市公司。

    Anthropic估值飙升
    Anthropic估值走势(图源:36氪)

    80倍增长,Dario在台上”凡尔赛”

    估值暴涨的背后是业绩真的在飞。CEO Dario Amodei在旧金山开发者大会上透露,今年第一季度Anthropic的年化收入和使用量同比涨了80倍——他们原本的规划仅仅是10倍。

    Dario甚至还”抱怨”说增速太快很难驾驭,希望回到仅仅10倍的增长,那样会轻松点。推动这波增长的核心是Claude Code,2025年底上线的这个编程工具在开发者群体里扩散速度超出了所有人预期。


    马斯克出手:22万块GPU救急

    因为需求爆炸,Anthropic的算力基础设施被瞬间击穿,用户发现Claude开始限流甚至高峰期掉线。关键时刻,马斯克出现了——Anthropic与SpaceX达成独家合作,拿下Colossus 1数据中心的全部算力。

    这个数据中心拥有300MW计算能力和22万块英伟达顶级GPU,一个月内全部到账。几个月前马斯克还在网上骂Claude”邪恶”,现在把给Grok准备的GPU全都给了Anthropic,也是挺讽刺的。

    拿到这22万块GPU之后,Anthropic直接给用户送了大礼包:Claude Code五小时限额翻倍,Pro/Max取消峰值限制,API速率大幅提升。


    2000亿美元抱上谷歌大腿

    据外媒透露,Anthropic已与谷歌签署了一份为期五年、价值约2000亿美元的云服务协议,占到了谷歌云合同积压总额的40%以上。现在的AI圈,正陷入一种疯狂的循环:云巨头掏钱给AI公司,AI公司转手把这笔钱作为”房租”买回算力服务。

    把Anthropic所有已公开的算力合同摊开:亚马逊5GW、谷歌+博通5GW、微软+英伟达300亿美元Azure容量、Fluidstack 500亿美元基础设施、SpaceX 300MW+22万张GPU,三线并进的算力格局已经成型。

    1.2万亿美元估值建立在2029年收入增长20-30倍的预期之上。这场算力豪赌能不能兑现,接下来三年见分晓。

  • Google I/O 2026今天开幕:Gemini 4.0、XR眼镜、新系统齐亮相

    Google I/O 2026今天开幕,大家期待的Gemini 4.0终于要亮相了。这次谷歌不只是更新模型,而是打算把AI能力直接塞进操作系统、塞进眼镜里,完成从”AI功能叠加”到”AI原生重构”的战略跨越。

    Gemini 4.0:上下文窗口拉到1000万tokens

    参数规模据说到3-5万亿,上下文窗口突破1000万tokens,是GPT-5.5的25倍,可以一次性加载完整代码库或者整本书籍做深度分析。更重要的是原生多模态,文本、图像、音频、视频统一处理,不用在不同模型之间来回切换。

    深度整合谷歌搜索之后,Gemini 4.0的知识可以实时更新、事实实时核查,幻觉率压到3%以内。定价预计每百万输入2.5美元,性价比相当能打。


    Android XR眼镜:80克、499美元起

    谷歌将推出首款自研Android XR智能眼镜,重量不到80克,售价499美元起,比同类竞品便宜不少。搭载高通骁龙AR Gen 3处理器,内置本地Gemini Nano轻量模型,200毫秒内响应,支持离线导航和实时翻译。

    深度适配Gemini 4.0之后,这副眼镜具备实时视觉理解、主动智能推送、多模态交互能力。谷歌还开放了Android XR SDK,现有安卓应用可以快速迁移到XR场景。


    Aluminum OS:8年磨一剑,三系统合一

    历时8年研发的Aluminum OS将正式落地,把Android、Chrome OS、Fuchsia三个系统揉在一起,手机、电脑、XR设备、智能家居全终端统一适配。

    Gemini 4.0拿到系统级接口,可以打通跨应用数据壁垒,实现实时上下文感知与主动智能执行。该系统将首发搭载于10月发布的Pixel 10系列手机,谷歌的AI硬件闭环生态算是真正立起来了。

    谷歌这次形成”大模型+硬件+操作系统+开发者生态”的全栈布局,直接对标OpenAI和Anthropic,全球AI竞争进入最激烈阶段。

  • OpenAI砸40亿美元成立部署公司,顺便把Tomoro买了

    OpenAI砸40亿美元成立部署公司,顺便把Tomoro买了

    OpenAI这周干了件大事——掏了超过40亿美元,成立了一家专门帮企业落地AI的新公司。名字很直白,叫”OpenAI Deployment Company”。说白了,就是以前卖模型,现在直接派人到你公司里帮你把AI用起来。

    为了把这件事做成,OpenAI顺便把一家叫Tomoro的AI咨询公司给收购了。这家公司不是昨天才成立的——它2023年就跟OpenAI合作过,客户名单里有美泰、红牛、乐购、维珍大西洋航空这些大牌子。收购完成后,Tomoro大概150个资深AI工程师和部署专家直接并入新公司。

    Tomoro的团队不是来OpenAI总部坐班的——他们会被派驻到客户现场,跟企业各个团队一起工作,找AI能真正产生价值的地方。

    为什么要做这件事

    过去这两年,OpenAI在消费者端赚足了眼球——ChatGPT的周活用户数字每次财报季都是亮点。但企业端这边,Anthropic的Claude其实跑得更快。很多公司在评估”到底用哪家的基础模型”时,Claude在企业级场景里的口碑确实不错。

    OpenAI这次成立部署公司,摆明了是要补上这块短板。光有模型不够,得有人帮客户把模型真正用起来——做集成、做定制、做业务流程改造。这块市场,咨询公司(埃森哲、德勤)和技术服务商都在抢,OpenAI现在是自己下场了。


    钱从哪来,谁在背后

    这40亿美元不是OpenAI自己全出的。TPG领投,安宏资本(Advent)、贝恩资本、布鲁克菲尔德(Brookfield)作为联合牵头创始合作方一起进来。OpenAI持有多数股权并掌控运营——也就是说,这家部署公司是个合资企业,但OpenAI说了算。

    有意思的是,路透社上周还报道说,OpenAI和Anthropic分别跟私募股权机构成立了合资公司,正在谈收购更多帮企业做AI落地的服务商。这个赛道突然就热了——因为大家意识到,卖API调用次数这件事,天花板是看得见的。真正赚钱的是帮企业把AI嵌进业务流程里,那种合同是长期的、高黏性的。


    这对行业意味着什么

    这件事释放了一个挺明确的信号:AI大模型公司的竞争,已经从”谁的模型更强”转向”谁能帮客户真正把AI用起来”。模型能力会有差距,但这个差距在缩小。真正的壁垒是——谁有更多的工程师能派到客户现场,谁有更多的行业落地经验,谁能帮客户把AI变成业务流程里真正产生价值的东西。

    Anthropic之前在企业端跑得快,一部分原因是它的模型在代码生成、数据分析这些场景里确实好用,另一部分原因是它更早地在开发者生态上投入。OpenAI这次直接收购Tomoro、组建150人的部署团队,是在用”堆人”的方式快速追上。

    对那些正在犹豫”要不要上AI”的企业来说,这其实是个好消息——以后不光是买个模型回去自己折腾,大厂会直接派人来帮你做。当然,费用估计也不会便宜。

  • Anthropic悄悄把这家公司买了,OpenAI和Google都用过它的工具

    昨天(5月18日)有一桩收购案值得聊一聊——Anthropic把纽约初创公司Stainless收了。金额没公布,但The Information说超过3亿美元。

    Stainless是做什么的?简单说,它帮开发者自动生成和维护SDK(软件开发工具包)。你有个API,它能读你的API规范文件,然后自动生成Python、TypeScript、Kotlin、Go、Java等多个语言的SDK代码。更省心的是,当你的API变了,它还能自动更新对应的SDK。

    这件事最有意思的地方在于:Stainless的客户里,有OpenAI、Google、Cloudflare。

    为什么这家公司值3亿美元

    AI公司都在卷Agent(智能体),而Agent要能干活,就得能调用各种外部工具。这就需要一个好用的SDK,让AI系统能顺畅地跟外部软件对话。Stainless干的就是这个——它把”让AI连接工具”这件事变得极其简单。

    OpenAI、Google这些大厂都在用它的工具,说明这块确实是刚需。而现在,这个工具归Anthropic了。

    Anthropic打的是什么算盘

    收购完成后,Stainless会停止对外服务,也就是说OpenAI、Google他们以后没法继续用这个工具了。这对竞争对手来说是个不小的打击——毕竟换个SDK工具链不是一朝一夕的事。

    对Anthropic自己来说,Stainless的软件从Anthropic API上线第一天起就在支撑官方SDK的生成。现在直接收进来,等于把这套能力完全内化,以后基于Claude做开发的体验会更丝滑。


    这件事背后反映出的趋势是:AI公司之间的竞争,已经从模型能力卷到了开发生态。谁能给开发者提供更好用的工具,谁就能留住更多开发者,而这个战场上,Anthropic刚刚拿到了一张重要的牌。

  • Google I/O 2026今天开幕,Gemini 4.0要正面硬刚Claude






    Google I/O 2026今天开幕,Gemini 4.0要正面硬刚Claude

    美西时间5月19日10点(北京时间明天凌晨2点),Google I/O 2026将在山景城Shoreline圆形剧场开幕。这是谷歌连续第三年把开发者大会变成”AI发布会”——但你如果只盯着模型基准测试分数,可能会错过真正值得看的东西。

    Gemini 4.0:谷歌的”必须赢”时刻

    从上次Google I/O到现在,AI领域的叙事主导权基本被Anthropic和OpenAI轮着拿。Claude Opus 4.5在长上下文推理上碾压全场,GPT-5.5的数学能力又把Gemini 3.0挤到了第三。这次Gemini 4.0如果拿不出接近Claude Mythos Preview的成绩(GPQA 94.6%),谷歌今年在AI叙事上就又要当配角。

    外界预期Gemini 4.0会在多模态推理、Workspace集成深度、Agent可靠性这三个方向上发力。特别是Agent可靠性——这是企业客户愿意付钱的关键,也是谷歌云如果能把Gemini嵌进企业工作流的机会。

    外界预测Gemini 4.0的参数规模可能达到3万亿级别,但参数规模已经不是重点。重点是:它能不能在企业生产环境里稳定运行,而不是在 benchmark 上刷分。

    Android XR眼镜:谷歌的硬件”第三次尝试”

    谷歌在硬件上栽过的跟头太多了——Google Glass、Daydream、Pixelbook,每一个都曾是”下一代计算平台”。这次的Android XR眼镜,谷歌学聪明了:不搞封闭生态,拉上三星、Warby Parker、Gentle Monster、XREAL一起做。

    无屏版2026年就能买到,价格区间会很宽——从入门级到高端产品都会有。关键是交互:免提召唤Gemini,用眼动追踪+语音操作。如果体验能做到”戴上去就不想摘”,这可能是谷歌第一次在硬件上真正威胁到Meta Ray-Ban的位置。

    Aluminium OS:ChromeOS的”Android化”

    这个泄露了好几个月的”ChromeOS替代系统”,本质上是把Android的应用生态搬到一个更像桌面操作系统的壳里。16分钟的泄露上手视频显示:底部有dock、支持虚拟桌面、Android应用以窗口模式运行。

    为什么要做这个?因为Chromebook在教育市场站稳了,但在生产力市场完全打不过MacBook和Windows。Aluminium OS如果能让Android应用无缝在”类桌面”环境里运行,对谷歌来说是一个把Android生态优势延伸到笔记本电脑市场的机会。


    Google Cloud Agentic Toolkit:企业AI的”最后一公里”

    这部分可能是最容易被忽略、但实际影响最大的发布。Google Cloud Agentic Toolkit如果能在定价和API稳定性上给出明确承诺,很多企业客户会认真考虑把Agent工作流从AWS/Azure迁移到Google Cloud——前提是Gemini 4.0的企业级可靠性确实到位。

    PwC前几天刚宣布把Claude部署到全球几十万员工,用的就是Anthropic的Model Context Protocol对接企业数据。谷歌如果不能在I/O上拿出类似的”企业AI落地方案”,光有更好的模型也没用——因为企业客户要的是”能跑起来的方案”,不是”分数更高的模型”。

    该怎么看这场发布会?

    如果你期待谷歌在I/O上”一统AI江湖”,可能会失望。但如果你关心的是:Android能不能在AI时代继续保持30亿设备的生态优势、谷歌云能不能在企业AI市场分到更多蛋糕、Gemini能不能从”好用的研究工具”变成”能赚钱的生产工具”——这些问题的答案,会在接下来48小时内慢慢浮现。

    谷歌有什么?Android 30亿+设备、全球最完整的搜索数据、Workspace的2亿+企业用户。这些是所有竞争对手都没有的”地面部队”。AI的竞争已经从”谁的模型更强”变成了”谁的生态更大”——在这一局,谷歌手里的牌其实比大多数人想的好。

    📎 原文来源:综合自 Build Fast with AI (2026-05-18)、Google I/O 2026 前瞻报道


  • GPT-5.5 Instant全面上线:ChatGPT默认模型升级,数学推理大涨24%

    OpenAI在5月5日把这周默认模型换成了GPT-5.5 Instant,替代了之前的GPT-5.3 Instant。这次升级不是小修小补——数学测试AIME 2025从65.4分拉到81.2分,多模态推理MMMU-Pro从69.2涨到76分。如果你用过GPT-5.3觉得数学推理还差点意思,这一版能感觉到明显进步。

    GPT-5.5 Instant 记忆功能更新
    GPT-5.5 Instant 新增记忆功能,可引用过往对话和关联Gmail账户(图源:OpenAI)

    幻觉率下降,但OpenAI没给具体数字

    OpenAI在公告里说GPT-5.5 Instant在法律、医疗、金融这些高风险领域的幻觉减少了,但没公布具体百分比。TechCrunch的报道也确认了这一点——知道它减少了,但不知道减少了多少。对比隔壁Claude时不时自己编造个引用来源,GPT-5.5 Instant这波升级至少在”不乱说”这件事上下了功夫。

    GPT-5.3 Instant的AIME 2025分数是65.4,GPT-5.5 Instant是81.2——这个跳跃幅度相当于从”能做对大部分”到”基本不会错”。多模态推理的提升同样显著,这意味着看图做题、理解图表这些能力也跟着涨了。

    新记忆功能有点东西

    这波更新最实用的功能,是GPT-5.5 Instant新增的记忆能力。模型现在可以引用你之前的对话记录、上传过的文件、甚至关联的Gmail账户内容来生成更个性化的回复。比如你之前跟它讨论过某个项目,下次接着问的时候它记得上下文,不用你重新介绍背景。

    • ChatGPT Plus/Pro用户:已可使用(网页版)
    • 移动端:即将推出
    • Free/Go Business/企业用户:未来几周内开放
    • 记忆来源可视化:用户可查看、编辑、删除记忆源

    默认模型这件事意味着什么

    ChatGPT的默认模型,全球有数亿人在用。把GPT-5.5 Instant设成默认,等于OpenAI在对用户说:这是目前综合体验最好的模型,不需要你手动切换。对比Anthropic那边要用户自己选Opus还是Sonnet,OpenAI的策略更直接——我帮你选好了,你就用这个。

    从GPT-5.3到GPT-5.5,中间隔了不到两个月。这个迭代速度说明OpenAI现在已经把模型升级做成了”持续交付”模式,而不是以前那种一年一次大版本的节奏。对开发者来说,这意味着API背后的模型能力在悄悄变强,但你不一定能感知到具体是哪天升级的。