标签： AI

谷歌I/O 2026倒计时：Gemini轻量升级，AI眼镜重启硬件线

谷歌I/O 2026倒计时：Gemini轻量升级，AI眼镜重启硬件线

2026年谷歌I/O开发者大会将于5月19-20日举行

2026年谷歌I/O开发者大会今天（5月20日）正在加州山景城举行。这次大会的核心看点很明确：新一代Gemini模型和Android XR智能眼镜。距离上次谷歌发布Gemini 3.1 Pro已经过去三个月，业界对新版本的期待值拉满。

Gemini模型不会跨越式迭代

综合多方消息，谷歌这次大概率不会发布Gemini 4.0。按照约3-4个月的迭代节奏，上一代Gemini 3是2025年11月发布的，到现在才半年。更可能的情况是推出Gemini 3.2或3.5，性能大致与OpenAI近期发布的GPT-5.5相当。

新一代模型的技术突破方向值得关注——它侧重Agent任务能力提升，而不是推理能力。具体来说，新模型预计将大幅提升上下文处理能力，并着重优化端侧轻量化表现。这意味着AI功能能够适配更多中低端安卓机型，真正服务于谷歌庞大的移动生态。

谷歌一直想把Gemini更深入地融入其生态系统。这次大会上，我们可能会看到Gemini从独立App升级为安卓底层的原生能力。

智能眼镜产品线重启

智能眼镜是本届大会最受瞩目的硬件产品。距离谷歌首次推出Google Glass已过去十余年，现在谷歌正与三星、Gentle Monster和Warby Parker合作开发两款AI眼镜。

一款是类似Meta Ray-Ban的无屏AI眼镜，主打轻量化与日常佩戴，支持免提唤醒Gemini助手。另一款则更为前沿，配备镜片内显示技术，可将导航、实时翻译等信息直接投射在用户视野中。两款眼镜均基于Android XR操作系统。

生态整合比产品更新更关键

除了具体的产品和模型，本次大会还将展示谷歌在AI生态领域的战略布局。Android 17系统有望迎来变革，Beta版或将公布，开放Gemini Nano端侧AI能力，支持第三方开发离线AI应用。

传闻中的”Gemini Spark”Agent平台可能会在大会上亮相。这个系统旨在主动运行、处理跨应用和服务的任务，而不是等待用户指令。它能够访问跨应用、浏览会话和用户活动的数据，这将是AI从工具升级为系统层的关键一步。

谷歌母公司Alphabet此前预计2026财年资本支出将达到1750亿至1850亿美元，这些资金将重点投向大规模数据中心扩建与专用AI算力部署。重金押注AI，谷歌亟需证明其庞大的AI投入能够通过搜索广告、云服务和订阅带来回报。

📎 原文来源：谷歌开发者大会倒计时！Gemini模型或迎轻量升级智能眼镜产品线有望重启

2026年5月20日
千问接入淘宝：阿里把AI购物这件事做透了

对话就能买东西，阿里这次玩真的

阿里巴巴最近把通义千问和淘宝打通了。不是那种噱头式的”AI购物助手”，而是真正能让用户通过对话完成浏览、比价、下单全流程的整合。你在千问App里说一句话，它就能帮你把商品找好、对比完毕、直接下单。

这套系统接入了淘宝和天猫超过40亿件商品。40亿是什么概念？基本上你能想到的东西都在里面了。以前要用关键词搜索、翻页、对比详情页，现在直接跟AI说你想要什么，它帮你搞定。

传统电商的逻辑是”人找货”——你得知道自己要什么、怎么描述、哪个关键词有效。AI购物的逻辑是”对话即交易”——你只需要表达需求，剩下的事AI帮你完成。

淘宝里头也有AI助手了

阿里这套打法挺聪明的，不是只做一个独立的AI购物App，而是双向打通。千问App能调用淘宝的商品库，淘宝站内也上线了千问赋能的AI购物助手。

淘宝里头的AI助手还加了几个实用功能：虚拟试穿、30天价格走势追踪。这些功能单独看不算新鲜，但跟对话式购物结合起来，体验就完全不一样了。你可以直接问”这件衣服我穿好看吗”，AI帮你试穿；也可以说”这个价格划算吗”，AI给你看价格走势。

依托专属”技能库”，千问还能帮你管理物流、处理售后。以前买完东西要查物流得去淘宝App，要退货得找客服，现在直接在对话里说一声就行。

中外电商的AI路数不一样

看看国外的玩法，就会发现阿里的打法挺特别的。亚马逊也在用AI优化购物体验，但它不敢让你直接通过AI完成交易，担心失控。加拿大电商平台Shopify倒是接了AI助手，但它用的是第三方的，自己不研发。

阿里这种”我有大模型、我有电商平台、我把它们打通”的路数，中外都没几家能抄。Google有模型但没电商，亚马逊有电商但模型不够强，只有阿里两家都有。

这种全链路打通，才是AI商业化真正有力的打法。不是做个聊天机器人让你玩，而是让AI真正进入交易环节、产生实际收入。

AI购物到底是噱头还是趋势

肯定有人会说，这不就是个升级版的”智能客服”吗？其实差别挺大的。智能客服是”你问它答”，而且通常只能处理固定流程里的问题。AI购物助手是”你说需求，它帮你完成交易”，主动权在用户手里，但执行权在AI手里。

这种模式能不能成，关键看两件事：一是AI推荐的准确性，别你想要的跟它给的不是一回事；二是用户对AI做决策的信任度，敢不敢让它帮你下单、处理售后。

阿里敢全线铺开，说明它在内部测试里对这两件事都有底气。接下来几个月，看用户买不买账就知道了。

📎 原文来源：消息称阿里巴巴将深度整合千问与淘宝，打造 AI 对话式购物新体验

2026年5月19日
前OpenAI CTO放大招：Thinking Machines实时交互模型200ms响应

前OpenAI CTO放了个大招

Mira Murati离开OpenAI自己创业才一年多，前几天直接把第一个模型甩了出来。不是那种传统的”你问一句我答一句”的回合制AI，而是真正能实时互动的交互模型。200毫秒的响应延迟，你随时可以插话打断，AI也能同时听、说、看、调用工具。

这套系统叫TML-Interaction-Small，采用的是2760亿参数的混合专家架构，每次推理只激活120亿参数。关键是它把前后台拆开了：前台专门维持对话流畅，200毫秒为一个时间片持续接收信息；后台负责复杂推理和工具调用，结果流式返回前台，不会打断你的说话节奏。

200毫秒是什么概念？人说话时自然的停顿间隔大约是200-300毫秒。也就是说，这个模型的响应速度已经接近人类对话的节奏了。

不只是速度快

以前那些号称”实时”的语音AI，本质上都是把语音识别、语言模型、语音合成这几个模块拼在一起，中间靠外部工具协调。你说话的时候AI只能等着，说完一段它才开始处理，这就是典型的”回合制”。

Thinking Machines这套系统是原生实时交互，从架构层面就设计成可以交错处理音频、视频、文本的流数据。它用的编码方案也挺聪明：音频用dMel轻量编码，图像用hMLL编码，所有组件跟Transformer主干网络一起训练，不用单独的编码器拖慢速度。

在FD-Bench v1.5基准测试里，这个模型拿了77.8分。作为对比，OpenAI的GPT-Realtime-2和谷歌的Gemini 3.1 Flash Live都没超过它。响应延迟0.40秒，比GPT-Realtime-2快了大概4倍。

钱和人都不缺

Murati这个人挺厉害的，在OpenAI当CTO的时候就是技术核心人物之一。她出来单干，投资人直接给了20亿美元种子轮，估值砸到120亿美元。团队里还有FAIR实验室的前研究员Piotr Dollar这种级别的人物。

算力方面也没拖后腿，跟英伟达、谷歌分别签了超过10亿美元的合作协议，拿到基于GB300芯片的超级计算资源。这种配置，基本上就是把”我要做顶级AI”写在脸上了。

团队自己说几个月里迭代了12个版本，训练日志写了137页。这种折腾劲，倒是很像早期OpenAI的风格。

真正的交互应该是什么样

现在大家用ChatGPT语音模式或者Alexa那种智能助手，体验上总感觉差了点什么。你不能在它说话的时候插话，它也不能在你还在想怎么表达的时候就开始回应。这种”半双工”的交互方式，本质上还是把AI当成一个高级搜索引擎来用。

Murati想做的，是让AI真正像一个人一样跟你对话。你可以随时打断，它可以同时处理多件事，后台在跑复杂推理的时候前台对话不受影响。这种体验，才是大家一直在说的”贾维斯”该有的样子。

当然现在这个模型还只是研究预览版，正式开放还要等几个月。但方向已经很明确了：AI交互的下一个战场，不是谁的模型参数更多，而是谁能真正做到”自然对话”。

📎 原文来源：前OpenAI CTO单挑老东家：新模型200ms响应，延迟压倒GPT-Realtime

2026年5月19日
RAGFlow：80.8k Stars！开源RAG引擎，让AI精准理解你的文档

📚 RAGFlow

80.8k Stars！开源RAG引擎，让AI精准理解你的文档

⭐ 80.8k Stars
🔧 RAG引擎
📄 深度文档理解

💡 项目简介

RAGFlow 是一款基于深度文档理解构建的开源 RAG（检索增强生成）引擎，由 InfiniFlow 团队开发。它可以为各种规模的企业及个人提供一套精简的 RAG 工作流，把”大模型+企业知识库”的门槛直接干到地面。

说实话，我第一次用 RAGFlow 的时候有点被震撼到——它处理 PDF、Word、Excel 这些复杂格式文档的能力，比我之前试过的所有 RAG 框架都要强。关键是它有可视化分块界面，你能看到每个文本块是怎么切的，哪里出了问题直接改，不用盲目调参。

🚀 核心功能

📑 深度文档理解

支持 PDF、Word、Excel、PPT、图片、扫描件等复杂格式，能从非结构化数据中提取精准知识。表格、图表、多栏布局都能正确解析，真正做到了”看懂”文档。

🔍 高质量RAG管道

内置多路召回 + 融合重排，支持可视化文本分块，生成结果附带可追溯的引用来源。不再出现”幻觉”回答，每个答案都有据可依。

🤖 Agent + MCP 支持

内置 Agent 工作流，支持 MCP 协议接入，可对接 OpenClaw 等 AI Agent 平台。还能接入 Confluence、Notion、Google Drive 等数据源，一键同步知识库。

🔧 多种部署方式

支持 Docker 一键部署（推荐），也支持源码启动。兼容 DeepSeek v4、Gemini 3 Pro、GPT-5 系列等主流大模型，自带 embedding 模型。

⚙️ 安装要求与过程

环境要求

• CPU ≥ 4核
• 内存 ≥ 16 GB
• 磁盘 ≥ 50 GB
• Docker ≥ 24.0.0 & Docker Compose ≥ v2.26.1
• 系统参数要求：vm.max_map_count ≥ 262144

# 1. 克隆仓库
git clone https://github.com/infiniflow/ragflow.git
cd ragflow/docker

# 2. 启动服务（CPU版）
docker compose -f docker-compose.yml up -d

# 3. 查看日志确认启动成功
docker logs -f docker-ragflow-cpu-1

# 4. 浏览器访问 http://服务器IP
# 出现 Running on all addresses 即成功！

💼 典型使用场景

🏢 企业知识库问答

把公司的产品文档、技术手册、HR政策全部喂给 RAGFlow，员工直接用自然语言提问，AI 能精准定位到具体文档段落并给出答案，还附带引用来源。比传统关键词搜索强太多了。

📚 个人学习助手

上传教材、论文、技术书籍，让 AI 帮你梳理知识点、回答思考题。RAGFlow 对 PDF 的解析特别到位，公式、表格、图表都能正确识别，学习效率高了不少。

🤖 AI Agent 知识底座

通过 MCP 协议把 RAGFlow 接入 OpenClaw 或 AutoGPT，让 AI Agent 在执行任务时可以实时检索你的私有知识库。相当于给 Agent 装了一个”外挂大脑”。

🌟 推荐理由

我觉得 RAGFlow 最打动我的一点，是它把”可视化”做到了极致。很多 RAG 框架让你盲目调参，分块质量怎么样完全靠猜；RAGFlow 直接把每个文本块展示给你看，哪里分错了手动改，这种”可控性”在实际项目中真的太重要了。

另外它的文档解析能力确实一流，我试过把一本 500 页的技术书丢进去，公式、代码块、表格全都识别对了，召回准确率相当能打。如果你正在搭建企业知识库或者给 AI Agent 接知识底座，RAGFlow 绝对值得一试。⭐

📥 下载地址

📦 GitHub 仓库
 🌐 官方网站
 📚 官方文档
 ☁️ 云服务

📌 本文由 AI 自动采集整理，更多开源项目介绍持续更新中…

Tags: RAGFlow · RAG · 知识库 · 开源AI

2026年5月19日
OpenAI连发三个语音模型，这次不只是”能说话”

OpenAI连发三个语音模型，这次不只是”能说话”

5月7日凌晨，OpenAI一口气发了三款音频模型：GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。官方说法是让开发者能构建”在用户说话时推理、翻译和转写”的实时语音产品。三款模型已经开放给开发者测试了。

这次更新的重点在于”分工”。三款模型各管一摊事：GPT-Realtime-2管实时语音Agent，GPT-Realtime-Translate管实时翻译，GPT-Realtime-Whisper管实时转写。这个打法很OpenAI——不只要做最好的单一模型，还要把整个语音AI的赛道拆成几块，各自做到极致。

GPT-Realtime-2 是 OpenAI 首个具备 GPT-5 级推理能力的语音模型（图源：OpenAI）

GPT-Realtime-2：从”能说”到”会说”

GPT-Realtime-2是这次更新的主角。OpenAI官方的说法是，这是第一款具备”GPT-5级推理”的语音模型。这个模型被设计来处理复杂请求、调用工具、处理对话中的打断，还能在更长的语音会话里保持上下文。

这些能力对应的都是语音Agent落地时最头疼的问题。比如一个用户想咨询买房的事，或者想改签机票，这些场景都可能包含一大堆条件和多轮确认。上下文窗口从32K提升到128K之后，模型可以在更长的实时对话里保留前面出现过的信息，不会聊到一半把前面说的话忘了。

GPT-Realtime-2在Big Bench Audio测试上比上一代GPT-Realtime-1.5高15.2%，在Audio MultiChallenge上高13.8%。这两个指标衡量的是模型在音频输入、多轮语音、复杂指令和上下文整合方面的能力。

还有一个很实用的细节：可调推理强度。你可以根据场景选择用多少算力。多数生产场景可以先使用较低的推理强度，优先保证通话里的响应速度；遇到更复杂的客服、预订、排障任务，再提高推理强度，用更多计算换取更完整的判断。这个设计很接地气——语音交互最怕的就是卡顿，用户在电话里等一两秒就会觉得”这AI不行”。

已经有企业在用了，效果还不错

OpenAI公布了几个已经在测试的企业用户：美国房地产网站Zillow、旅游预订平台Priceline、德国电信。这些都不是小打小闹的Demo，而是真实业务场景。

Zillow在用GPT-Realtime-2构建可以理解住房条件并安排看房的语音助手。他们说，在最困难的对抗性测试中，经过prompt优化后，电话任务成功率从69%提升到95%。这个提升幅度很夸张，但也说明语音Agent在垂直场景里确实能干活了。

Priceline的用例更典型：旅游预订链条很长，用户可能要查航班、订酒店、调整日期、处理延误、比较价格，还可能在境外需要翻译。语音Agent如果能稳定接入后台系统，就有机会把”问答”推进到”办事”。这个跨越才是语音AI真正有价值的地方。

另外两款模型：翻译和转写

GPT-Realtime-Translate主打实时语音到语音翻译，支持70多种输入语言到13种输出语言。传统语音翻译常常要求说话人停顿，系统等一句话结束后再翻译；而GPT-Realtime-Translate更接近连续口译的形态，说话人讲话时它就能跟上节奏。

GPT-Realtime-Whisper则强调实时流式转写，可以在说话人讲话时生成字幕、会议记录和工作流更新。它的价格最便宜，只有0.017美元/分钟。

三款模型放在一起看，OpenAI已经把实时音频拆成了三个明确入口，价格和延迟要求各不相同。奥特曼想要的可能是”通吃”——不管你要做语音客服、跨语言会议还是实时字幕，都得用我的API。

语音AI这波竞争，正在从”像人”变成”能办事”

这个市场里已经有一堆强势玩家了。ElevenLabs今年2月完成5亿美元D轮融资，估值110亿美元；Deepgram今年1月完成1.3亿美元融资，估值13亿美元，服务1300多家客户；Cartesia的Sonic 3模型已经有1万多客户使用，主打90毫秒低延迟。

OpenAI的优势在于模型栈——它可以把整个企业调用TTS的链路放在同一个开发者平台里。对开发者来说，少接几个供应商，就少一些延迟、集成和运维成本。但语音市场并不好啃，每家都有自己的地盘和忠实客户。

从目前企业用户的测试反馈来看，GPT-Realtime-2确实在某些场景里把语音Agent的完成率拉到了一个可用的水平。但这波”从对话走向执行”的转型能不能真正跑通，可能还得看接下来半年这些早期客户的真实业务数据。

📎 原文来源：AI有嘴了，OpenAI 连发三语音模型 — 36氪

2026年5月19日
喊一声就能做播客，Alexa这波升级有点意思

喊一声就能做播客，Alexa这波升级有点意思

亚马逊本周一给Alexa+推了个新功能，叫”Alexa Podcasts”。简单来说就是你跟它说个话题，几分钟它就能给你生成一期播客。不用写稿子，不用找素材，甚至不用想大纲——你报个题目，剩下的它全包了。

我试了试这个流程：你跟Alexa+说”帮我做个关于火星殖民的播客”，它先去搜资料，然后给你列个大纲让你确认。你可以调整长度、语气、侧重点，确认后它就用AI生成的主播声音把节目录好。做完了会在你的Echo Show设备和Alexa应用里发通知，节目还会保存在”音乐”和”更多”板块里，随时能回放。

Alexa+ 现在可以按需生成播客内容了（图源：Amazon）

这功能今天开始推给美国用户。亚马逊的官方说法是想把”你好奇的任何话题变成播客节目，几分钟就能搞定”。听起来很诱人，但我觉得这里有几个问题值得琢磨。

“turn any topic you’re curious about into a podcast episode, ready in minutes.” —— 亚马逊对Alexa Podcasts功能的描述

从语音助手到内容工厂

这个功能的意义不只是”多了个玩法”。它标志着Alexa+的定位在发生转变：从回答问题、控制智能家居的语音助手，变成了个性化的AI内容创作平台。你不再只是”问它东西”，而是”让它帮你做东西”。

但这个方向肯定会引发争议。AI生成的声音、自动化内容这些事，一直都有人在质疑：伦理边界在哪？内容准确性怎么保证？传统播客创作者的生存空间会不会被挤占？尤其是涉及新闻或者复杂话题的时候，AI生成的播客到底靠不靠谱，这事还得打个问号。

亚马逊自己也知道这个问题，所以找了一堆媒体机构合作。他们宣称Alexa+可以通过合作协议获取实时信息，合作方包括美联社、路透社、《华盛顿邮报》、时代周刊、福布斯、商业内幕、政客、今日美国、康泰纳仕、赫斯特、VOX媒体，还有全美200多家地方报纸。这个阵容确实挺豪华的，但合作归合作，AI对新闻内容的”理解”和”转述”能不能做到不出错，还是要打个问号。

不只是播客，还有更多玩法

亚马逊说他们还在探索其他个性化AI音频形式，包括定制化的新闻简报、基于用户个人文档和共享信息生成专属内容等等。这些功能的逻辑都一样：你提供素材（或者让它自己去搜），它帮你做成音频。

我觉得这事挺有意思的。播客制作一直是个门槛挺高的活：你要会写稿、会录音、会剪辑，还得有个像样的麦克风。现在Alexa+说”这些都不用了，你只要有个想法就行”，这对普通人来说确实是个很低的创作门槛。但反过来想，当所有人都能几分钟做出一期”播客”，播客这个媒介本身的价值会不会被稀释？这事可能还得观望一阵子。

目前这个功能只在美国推出，国内用户想试还得等等。但按照亚马逊的节奏，如果美国这边反馈好，其他国家应该也不会等太久。

📎 原文来源：Amazon’s new Alexa+ powered feature can generate podcast episodes — TechCrunch

2026年5月19日
微软AI CEO：18个月内AI接管大部分白领工作，MBA和法学学位正在贬值
微软AI CEO Mustafa Suleyman两个月前跟《金融时报》说了一句话，让整个白领圈安静了。他说：“12到18个月内，大多数坐在电脑前完成的工作，会被AI完全自动化。” 他列举了会计、法律、营销、项目管理——基本上把办公室里能想到的工作都点了一遍。

Suleyman不是第一个说这种话的人，但他是目前位置最高的那个。作为微软AI部门的CEO，他管着微软跟OpenAI的合作、Copilot产品线、以及微软自己的大模型研发。他说这话的时候，微软刚刚把Copilot Deep Think（他们的深度推理模型）给Plus用户推了上去。

“大多数（如果不是全部）专业任务上，AI将达到人类水平。未来一年或18个月内，大部分’坐在电脑前’的任务将被AI完全自动化。”——Mustafa Suleyman，微软AI CEO

他的依据是算力，不是愿景

Suleyman的论证逻辑很直接：算力在指数级增长，模型写代码的能力很快就会超过大多数人类程序员。他没有说具体哪个基准测试，但如果你看过过去半年GPT-5.5、Claude Opus 4.7、Gemini 3.1的编码测试成绩，这个判断不算离谱。

同期还有两个人在说类似的话。Anthropic CEO Dario Amodei去年5月警告AI可能消灭一半入门级白领工作（不过最近他改口了）。福特CEO Jim Farley说AI会把美国白领岗位数量砍一半。马斯克在今年1月的达沃斯论坛上更直接：通用人工智能（AGI）可能在2026年内实现。

但现实跟预测之间有个巨大的裂缝——目前为止，AI在专业服务领域的渗透非常有限。

实际数据：AI有时候让人变慢

2025年Thomson Reuters的一份报告发现，律师、会计、审计师确实在用AI做文档审查、常规分析这类定向任务，生产力有边际提升，但离大规模岗位替代还差得很远。

更有意思的是反向结果。非营利组织Model Evaluation and Threat Research（METR）做了一个研究，发现AI让软件开发者的任务完成时间延长了20%。原因挺直观的：开发者要花时间验证AI生成的代码对不对，这个验证时间经常超过自己写的时间。

经济层面的影响也高度集中在科技行业。Apollo Global Management首席经济学家Torsten Slok的研究显示，2025年第四季度大型科技公司的利润率提升了20%以上，但更广泛的Bloomberg 500指数企业的利润率几乎没有变化。投资者也不太相信AI能提升科技行业以外的企业盈利——这从华尔街对S&P 500的盈利预期就能看出来。

裁员已经在发生，但规模不大

就业咨询公司Challenger, Gray & Christmas的数据：2026年截至目前，已有49,135个裁员跟AI相关。微软2025年裁员15,000人，虽然在裁员备忘录里没有明确提出AI是原因，但CEO Satya Nadella说公司必须”为新时代重新构想我们的使命”。

市场对这个预期的反应很激烈。2026年2月，软件股出现大规模抛售——分析师称之为”SaaSpocalypse“（SaaS末日），因为Anthropic和OpenAI相继发布了企业级智能体AI系统，能做很多SaaS公司的核心工作。投资者担心这些传统软件公司会被AI代理直接替代掉。

Suleyman的真正目标：让微软不再依赖OpenAI

Suleyman在访谈里说了一句很直白的话：“创造新模型会变得像创建一个播客或者写一篇博客一样简单。为每个机构、组织和个人设计符合他们需求的AI，这将成为可能。”

他的核心任务是让微软AI实现”超级智能”（superintelligence），减少对OpenAI的依赖，优先建设微软自己的前沿基础模型。他说：”这是我们这个时代最重要的技术，我们必须开发属于自己的、处于绝对前沿的基础模型。”

这个战略背后的逻辑很清楚：微软每年给OpenAI付不少钱，如果有一天关系破裂（或者OpenAI自己做了类似Copilot的产品），微软需要一个备选方案。Suleyman之前是DeepMind的联合创始人，后来创办了Inflection AI，2024年被微软挖来做这个”独立模型”的项目。

但过去三个月的证据显示，AI的实际效果并没有Suleyman预测的那么惊人。Anthropic的Claude正在取代OpenAI成为企业收入第一的模型，但整体AI在企业端的落地还是比预期慢。

普通白领现在该做什么

Suleyman的预测听起来吓人，但有几个需要注意的点：
- 他说的是”坐在电脑前完成的任务”，不是整个岗位。律师的文档审查可能被自动化，但客户谈判、法庭辩论这些需要人的工作还在
- 18个月是从现在往后算，也就是2027年底之前。这个时间表非常激进，历史上类似的AI预测大部分都延期了
- MBA和法学学位作为”职场门票”的价值确实在贬值，但贬值速度可能没有Suleyman说的那么快
- Block CEO Jack Dorsey提出了一个更有意思的观点：AI不仅会替代岗位，还会重构公司本身的组织形式——一个运行了兩千年的逻辑（信息路由=中层管理）可能被重写
如果你现在在做一个”纯电脑”的白领工作，Suleyman的建议（以及越来越多AI研究者的建议）是：学会用AI工具，让自己变成”用AI完成任务的人”，而不是”被AI替代的人”。这个转型窗口，按照他的时间表，只有18个月。

📎 原文来源：Fortune – Microsoft AI chief gives it 18 months—for all white-collar work to be automated by AI
2026年5月19日
NVIDIA Vera Rubin NVL72发布：推理成本暴降90%，Vera CPU亲自送货上门
如果你最近关注AI硬件圈，5月18日这天有个消息值得盯一下。NVIDIA CEO黄仁勋站在Dell Technologies World的舞台上，说了一句话：”需求正在抛物线式增长，完全是抛物线。”台下坐着的5000家企业代表应该都听懂了——这里面包括礼来、三星、霍尼韦尔这些已经在用Dell AI Factory跑AI负载的公司。

这次发布的核心是两个东西：Vera Rubin NVL72架构，以及NVIDIA第一款专门为AI代理（Agent）设计的CPU——Vera CPU。别被名字搞混了，Rubin是GPU架构，Vera是CPU，俩搭配着用。

推理成本直接砍掉90%

Vera Rubin NVL72最吓人的数据是：每token推理成本只有上一代Blackwell平台的1/10。换句话说，原来跑100块钱的推理任务，现在只要10块。这个降幅不是靠砍性能换来的——Dell同步发布的PowerEdge XE9812服务器，用HGX Rubin NVL8架构，性能是上一代HGX B200的5.5倍。

“67%的企业AI工作负载现在跑在云端之外——本地、设备端、边缘、托管机房，这才是真实的企业AI部署现状。”——NVIDIA CEO黄仁勋

88%的受访企业至少运行1个本地AI工作负载。这个数据背后有个很现实的原因：把数据搬来搬去的成本，比直接在企业自己机房里跑AI贵多了。Vera Rubin NVL72就是为这种场景设计的——专门优化长序列推理和高并发Agent任务。

Vera CPU：首款为AI代理设计的处理器

NVIDIA之前出过Grace CPU，但Vera是第一款明确为”AI代理时代”设计的CPU。这里的逻辑是：AI代理干活的时候，不是一口气跑完的，它要查数据库、跑代码、调工具，这些步骤是串行的，特别吃CPU的单线程性能和内存带宽。

Vera的三个关键数字：
- 内存带宽1.2TB/s，是其他CPU的3倍
- AI代理工作负载完成速度比x86处理器快50%
- 企业数据查询速度提升3倍（Starburst引擎吞吐量提升3倍）
第一批发货的Vera CPU已经送到三个地方：OpenAI在米申湾的办公室、SpaceX AI在帕洛阿尔托的实验室、以及Anthropic在旧金山的总部。下一批会送到甲骨文云基础设施在圣克拉拉的机房。NVIDIA超大规模计算副总裁Ian Buck亲自送货上门——这阵仗挺少见的，一般芯片发布都是发新闻稿，不会搞”ceo亲自交付”这套。

2030年的AI基础设施市场：3-4万亿美元

黄仁勋在台上给出了一个预测：2030年全球AI基础设施支出将达到3-4万亿美元，同期token消耗量预计增长3400%。这两个数字放在一起看就有意思了——基础设施投入增长，单位token成本下降，但总消耗量增长更快，所以市场总盘子还是在爆炸。

Dell AI Factory这边的策略是把”计算、网络、存储”打包成一个整体方案，客户不用自己拼组件。配套的还有NVIDIA机密计算（Confidential Computing）支持，模型权重和企业数据在运行过程中全程加密，这个对金融、医疗这些敏感行业挺重要的。

目前已经在Dell AI Factory上跑AI负载的5000家企业里，礼来用它加速药物研发，三星用它跑芯片设计仿真，霍尼韦尔把原来放在公有云上的工业AI迁移回了本地机房。这些案例的背后逻辑都一样：数据搬不动，算力得靠近数据放。

开源模型也在往这套基础设施上迁

NVIDIA在这次发布会上列了一个支持Dell AI Factory的开源模型清单：Nemotron、Reflection、MiniMax-M2.7、DeepSeek Pro、DeepSeek-V4、GLM 5.1、Kimi K2.6。这些模型都做了NVFP4精度优化，在Vera Rubin架构上跑起来更高效。

Hugging Face上已经开了Dell Enterprise Hub，企业可以直接拉取这些优化过的模型镜像部署。这个动作的信号很明确：NVIDIA不只是卖芯片，它在搭一个从芯片到模型到部署工具链的完整生态，让企业”买了硬件就能跑起来”，而不是买回去之后发现软件栈对不上。

下一波详细技术发布会在6月1-4日的COMPUTEX GTC Taipei大会上放出。如果你在关注AI推理成本这条曲线，Vera Rubin NVL72的价格和实测数据值得等一下那个发布会。

📎 原文来源：NVIDIA Blog – Dell Technologies World 2026: Agentic AI Inference at 1/10th the Cost
2026年5月19日
OpenAI确认打造超级应用：ChatGPT、Codex、浏览器三合一
OpenAI最近确认了一个挺大的产品调整：他们要把ChatGPT、AI编程工具Codex、还有自己开发的Atlas浏览器，全部合并成一个桌面应用。这个消息是5月正式公开的，但内部备忘录早在3月就写好了。

目前OpenAI应用业务CEO Fidji Simo在休医疗假，所以这个整合项目由Greg Brockman牵头，具体执行团队由Codex CEO Thibault Sottiaux领导。

为什么要合并？

OpenAI过去一年有点产品”摊大饼”的意思——Sora、Atlas、Codex、Canvas，各自为战，工程资源被拆得稀碎。结果就是每个产品都还不错，但都没达到能碾压竞品的那种好。

合并之后，ChatGPT会作为核心编排层，统一调度对话、编码、浏览器三类能力。你可以直接在对话里让AI写代码，然后立刻用内置浏览器测试运行效果。

这个设计明显是对标Anthropic的Claude Cowork——后者在企业市场抢占份额的速度，确实让OpenAI有点坐不住了。

分阶段推进，移动端保持独立

合并不是一口气完成的，OpenAI做了分阶段规划：
- 第一阶段：先给Codex加编码之外的通用生产力功能，拓宽使用场景
- 第二阶段：把Atlas浏览器整合进来，实现对话+编码+网页操作的闭环
- 第三阶段：ChatGPT作为中枢编排层，统一协调所有功能模块
有意思的是，移动端的ChatGPT App会保持独立，不参与这次合并。看来OpenAI也清楚，手机上搞太重的应用体验未必好。

为IPO做准备？

这个时间点值得玩味。截至2026年2月，ChatGPT周活跃用户9亿；截至5月，Codex周活也到了400万。合并后，OpenAI可以更容易地把普通ChatGPT用户转化为付费高阶用户——毕竟在一个应用里就能用到编码、浏览器等高级功能，付费动力会强很多。

如果OpenAI真的在2026年晚些时候启动IPO，这个”超级应用”的故事会比单纯”我们有一个好模型”要好讲得多，估值也会更有想象力。

当然，产品整合这种事，说起来容易做起来难。三个不同定位的产品合并成一个，用户体验能不能做到1+1+1>3，还得等实际产品出来才知道。

📎 原文来源：OpenAI Super App Confirmed – ChatGPT + Codex + Atlas Browser Merging Into One Desktop
2026年5月19日
Google I/O 2026 Day 1直击：Gemini 4.0、Omni多模态、XR眼镜齐亮相

今天Google I/O 2026正式开幕，谷歌一口气发布了多个重磅产品。看完整个发布会，感觉谷歌这次是认真了，不再是以前那种”我们有个很酷的研究项目”的画饼风格，而是实打实地把AI塞进了每一个产品线里。

Gemini 4.0：不止是基准测试

Gemini 4.0这次是真的来了。谷歌没有只拿基准测试分数说事，而是把重点放在了实际应用场景上——Workspace集成、多模态推理、智能体可靠性，这些都是企业用户真正关心的东西。

外界预期Gemini 4.0在多模态推理上会有显著提升，如果它能接近Claude Mythos Preview的94.6% GPQA成绩，那谷歌就真的把今年早些时候丢掉的话语权给抢回来了。

谷歌的优势在于生态。安卓30亿+设备、搜索数据、Workspace 2亿+用户，这不是OpenAI或者Anthropic短时间内能追上的。

Gemini Omni：文本+图像+视频统一管线

这次最让我意外的是Gemini Omni。它不是Veo的升级版，而是一个统一的文本/图像/视频生成管线，可以在对话窗口里直接生成和编辑视频，还会自动配背景音乐。

早期泄露的测试报告显示，Omni在提示词保真度和音频质量上都比Veo 3.1强。如果这套系统正式上线，谷歌就是第一个在消费级场景里提供全模态统一生成能力的厂商。叠加安卓生态的分发优势，这个组合拳确实不好接。

Google I/O 2026 Day 1 发布会现场

Android XR眼镜与Aluminium OS

硬件方面，谷歌和三星、Warby Parker、Gentle Monster、XREAL合作的Android XR眼镜正式亮相。无屏版本重80克以内，售价379-499美元，搭载骁龙AR Gen 3，延迟200ms。这个规格如果能兑现，Meta的Ray-Ban系列可能要感受到压力了。

更值得关注的是Aluminium OS，这个基于安卓开发的系统将替代ChromeOS，首批笔记本由宏碁、华硕、戴尔、惠普、联想生产，2026年秋季上市。谷歌这是在把安卓的势力范围从手机扩展到PC。

Gemini Spark：谷歌版的AI智能体

Gemini Spark是这次发布的一个容易被忽略但很重要的产品。它能自动化跨应用任务——整理收件箱、生成会议简报、追踪新闻事件进展。这和微软的Copilot、Anthropic的Claude Cowork是一个赛道的产品，但谷歌的优势在于它自己的应用生态（Gmail、Calendar、Drive、Docs）。

总体来看，谷歌这次的策略很清晰：不追求单一的基准测试冠军，而是把Gemini铺到所有能铺的地方——手机、眼镜、笔记本、云端、企业应用。这种打法短期内在基准测试上可能不够性感，但长期来看，生态黏性才是最难被颠覆的壁垒。

📎 原文来源：Google I/O 2026 Live – Gemini 4, Omni Video Model, Android XR Glasses, Aluminium OS

2026年5月19日

标签： AI

谷歌I/O 2026倒计时：Gemini轻量升级，AI眼镜重启硬件线

Gemini模型不会跨越式迭代

智能眼镜产品线重启

生态整合比产品更新更关键

对话就能买东西，阿里这次玩真的

淘宝里头也有AI助手了

中外电商的AI路数不一样

AI购物到底是噱头还是趋势

前OpenAI CTO放了个大招

不只是速度快

钱和人都不缺

真正的交互应该是什么样

OpenAI连发三个语音模型，这次不只是”能说话”

GPT-Realtime-2：从”能说”到”会说”

已经有企业在用了，效果还不错

另外两款模型：翻译和转写

语音AI这波竞争，正在从”像人”变成”能办事”

喊一声就能做播客，Alexa这波升级有点意思

从语音助手到内容工厂

不只是播客，还有更多玩法

他的依据是算力，不是愿景

实际数据：AI有时候让人变慢

裁员已经在发生，但规模不大

Suleyman的真正目标：让微软不再依赖OpenAI

普通白领现在该做什么

推理成本直接砍掉90%

Vera CPU：首款为AI代理设计的处理器

2030年的AI基础设施市场：3-4万亿美元

开源模型也在往这套基础设施上迁

为什么要合并？

分阶段推进，移动端保持独立

为IPO做准备？

Gemini 4.0：不止是基准测试

Gemini Omni：文本+图像+视频统一管线

Android XR眼镜与Aluminium OS

Gemini Spark：谷歌版的AI智能体