标签: AI

  • 谷歌I/O 2026倒计时:Gemini轻量升级,AI眼镜重启硬件线

    谷歌I/O 2026倒计时:Gemini轻量升级,AI眼镜重启硬件线

    谷歌I/O 2026开发者大会
    2026年谷歌I/O开发者大会将于5月19-20日举行

    2026年谷歌I/O开发者大会今天(5月20日)正在加州山景城举行。这次大会的核心看点很明确:新一代Gemini模型和Android XR智能眼镜。距离上次谷歌发布Gemini 3.1 Pro已经过去三个月,业界对新版本的期待值拉满。

    Gemini模型不会跨越式迭代

    综合多方消息,谷歌这次大概率不会发布Gemini 4.0。按照约3-4个月的迭代节奏,上一代Gemini 3是2025年11月发布的,到现在才半年。更可能的情况是推出Gemini 3.2或3.5,性能大致与OpenAI近期发布的GPT-5.5相当。

    新一代模型的技术突破方向值得关注——它侧重Agent任务能力提升,而不是推理能力。具体来说,新模型预计将大幅提升上下文处理能力,并着重优化端侧轻量化表现。这意味着AI功能能够适配更多中低端安卓机型,真正服务于谷歌庞大的移动生态。

    谷歌一直想把Gemini更深入地融入其生态系统。这次大会上,我们可能会看到Gemini从独立App升级为安卓底层的原生能力。

    智能眼镜产品线重启

    智能眼镜是本届大会最受瞩目的硬件产品。距离谷歌首次推出Google Glass已过去十余年,现在谷歌正与三星、Gentle Monster和Warby Parker合作开发两款AI眼镜。

    一款是类似Meta Ray-Ban的无屏AI眼镜,主打轻量化与日常佩戴,支持免提唤醒Gemini助手。另一款则更为前沿,配备镜片内显示技术,可将导航、实时翻译等信息直接投射在用户视野中。两款眼镜均基于Android XR操作系统。


    生态整合比产品更新更关键

    除了具体的产品和模型,本次大会还将展示谷歌在AI生态领域的战略布局。Android 17系统有望迎来变革,Beta版或将公布,开放Gemini Nano端侧AI能力,支持第三方开发离线AI应用。

    传闻中的”Gemini Spark”Agent平台可能会在大会上亮相。这个系统旨在主动运行、处理跨应用和服务的任务,而不是等待用户指令。它能够访问跨应用、浏览会话和用户活动的数据,这将是AI从工具升级为系统层的关键一步。

    谷歌母公司Alphabet此前预计2026财年资本支出将达到1750亿至1850亿美元,这些资金将重点投向大规模数据中心扩建与专用AI算力部署。重金押注AI,谷歌亟需证明其庞大的AI投入能够通过搜索广告、云服务和订阅带来回报。

  • 千问接入淘宝:阿里把AI购物这件事做透了

    对话就能买东西,阿里这次玩真的

    阿里巴巴最近把通义千问和淘宝打通了。不是那种噱头式的”AI购物助手”,而是真正能让用户通过对话完成浏览、比价、下单全流程的整合。你在千问App里说一句话,它就能帮你把商品找好、对比完毕、直接下单。

    这套系统接入了淘宝和天猫超过40亿件商品。40亿是什么概念?基本上你能想到的东西都在里面了。以前要用关键词搜索、翻页、对比详情页,现在直接跟AI说你想要什么,它帮你搞定。

    传统电商的逻辑是”人找货”——你得知道自己要什么、怎么描述、哪个关键词有效。AI购物的逻辑是”对话即交易”——你只需要表达需求,剩下的事AI帮你完成。

    淘宝里头也有AI助手了

    阿里这套打法挺聪明的,不是只做一个独立的AI购物App,而是双向打通。千问App能调用淘宝的商品库,淘宝站内也上线了千问赋能的AI购物助手。

    淘宝里头的AI助手还加了几个实用功能:虚拟试穿、30天价格走势追踪。这些功能单独看不算新鲜,但跟对话式购物结合起来,体验就完全不一样了。你可以直接问”这件衣服我穿好看吗”,AI帮你试穿;也可以说”这个价格划算吗”,AI给你看价格走势。


    依托专属”技能库”,千问还能帮你管理物流、处理售后。以前买完东西要查物流得去淘宝App,要退货得找客服,现在直接在对话里说一声就行。

    中外电商的AI路数不一样

    看看国外的玩法,就会发现阿里的打法挺特别的。亚马逊也在用AI优化购物体验,但它不敢让你直接通过AI完成交易,担心失控。加拿大电商平台Shopify倒是接了AI助手,但它用的是第三方的,自己不研发。

    阿里这种”我有大模型、我有电商平台、我把它们打通”的路数,中外都没几家能抄。Google有模型但没电商,亚马逊有电商但模型不够强,只有阿里两家都有。

    这种全链路打通,才是AI商业化真正有力的打法。不是做个聊天机器人让你玩,而是让AI真正进入交易环节、产生实际收入。


    AI购物到底是噱头还是趋势

    肯定有人会说,这不就是个升级版的”智能客服”吗?其实差别挺大的。智能客服是”你问它答”,而且通常只能处理固定流程里的问题。AI购物助手是”你说需求,它帮你完成交易”,主动权在用户手里,但执行权在AI手里。

    这种模式能不能成,关键看两件事:一是AI推荐的准确性,别你想要的跟它给的不是一回事;二是用户对AI做决策的信任度,敢不敢让它帮你下单、处理售后。

    阿里敢全线铺开,说明它在内部测试里对这两件事都有底气。接下来几个月,看用户买不买账就知道了。

  • 前OpenAI CTO放大招:Thinking Machines实时交互模型200ms响应

    前OpenAI CTO放了个大招

    Mira Murati离开OpenAI自己创业才一年多,前几天直接把第一个模型甩了出来。不是那种传统的”你问一句我答一句”的回合制AI,而是真正能实时互动的交互模型。200毫秒的响应延迟,你随时可以插话打断,AI也能同时听、说、看、调用工具。

    这套系统叫TML-Interaction-Small,采用的是2760亿参数的混合专家架构,每次推理只激活120亿参数。关键是它把前后台拆开了:前台专门维持对话流畅,200毫秒为一个时间片持续接收信息;后台负责复杂推理和工具调用,结果流式返回前台,不会打断你的说话节奏。

    200毫秒是什么概念?人说话时自然的停顿间隔大约是200-300毫秒。也就是说,这个模型的响应速度已经接近人类对话的节奏了。

    不只是速度快

    以前那些号称”实时”的语音AI,本质上都是把语音识别、语言模型、语音合成这几个模块拼在一起,中间靠外部工具协调。你说话的时候AI只能等着,说完一段它才开始处理,这就是典型的”回合制”。

    Thinking Machines这套系统是原生实时交互,从架构层面就设计成可以交错处理音频、视频、文本的流数据。它用的编码方案也挺聪明:音频用dMel轻量编码,图像用hMLL编码,所有组件跟Transformer主干网络一起训练,不用单独的编码器拖慢速度。


    在FD-Bench v1.5基准测试里,这个模型拿了77.8分。作为对比,OpenAI的GPT-Realtime-2和谷歌的Gemini 3.1 Flash Live都没超过它。响应延迟0.40秒,比GPT-Realtime-2快了大概4倍。

    钱和人都不缺

    Murati这个人挺厉害的,在OpenAI当CTO的时候就是技术核心人物之一。她出来单干,投资人直接给了20亿美元种子轮,估值砸到120亿美元。团队里还有FAIR实验室的前研究员Piotr Dollar这种级别的人物。

    算力方面也没拖后腿,跟英伟达、谷歌分别签了超过10亿美元的合作协议,拿到基于GB300芯片的超级计算资源。这种配置,基本上就是把”我要做顶级AI”写在脸上了。

    团队自己说几个月里迭代了12个版本,训练日志写了137页。这种折腾劲,倒是很像早期OpenAI的风格。


    真正的交互应该是什么样

    现在大家用ChatGPT语音模式或者Alexa那种智能助手,体验上总感觉差了点什么。你不能在它说话的时候插话,它也不能在你还在想怎么表达的时候就开始回应。这种”半双工”的交互方式,本质上还是把AI当成一个高级搜索引擎来用。

    Murati想做的,是让AI真正像一个人一样跟你对话。你可以随时打断,它可以同时处理多件事,后台在跑复杂推理的时候前台对话不受影响。这种体验,才是大家一直在说的”贾维斯”该有的样子。

    当然现在这个模型还只是研究预览版,正式开放还要等几个月。但方向已经很明确了:AI交互的下一个战场,不是谁的模型参数更多,而是谁能真正做到”自然对话”。

  • RAGFlow:80.8k Stars!开源RAG引擎,让AI精准理解你的文档

    RAGFlow:80.8k Stars!开源RAG引擎,让AI精准理解你的文档

    📚 RAGFlow
    80.8k Stars!开源RAG引擎,让AI精准理解你的文档
    ⭐ 80.8k Stars
    🔧 RAG引擎
    📄 深度文档理解

    💡 项目简介

    RAGFlow 是一款基于深度文档理解构建的开源 RAG(检索增强生成)引擎,由 InfiniFlow 团队开发。它可以为各种规模的企业及个人提供一套精简的 RAG 工作流,把”大模型+企业知识库”的门槛直接干到地面。

    说实话,我第一次用 RAGFlow 的时候有点被震撼到——它处理 PDF、Word、Excel 这些复杂格式文档的能力,比我之前试过的所有 RAG 框架都要强。关键是它有可视化分块界面,你能看到每个文本块是怎么切的,哪里出了问题直接改,不用盲目调参。

    🚀 核心功能
    📑 深度文档理解
    支持 PDF、Word、Excel、PPT、图片、扫描件等复杂格式,能从非结构化数据中提取精准知识。表格、图表、多栏布局都能正确解析,真正做到了”看懂”文档。

    🔍 高质量RAG管道
    内置多路召回 + 融合重排,支持可视化文本分块,生成结果附带可追溯的引用来源。不再出现”幻觉”回答,每个答案都有据可依。

    🤖 Agent + MCP 支持
    内置 Agent 工作流,支持 MCP 协议接入,可对接 OpenClaw 等 AI Agent 平台。还能接入 Confluence、Notion、Google Drive 等数据源,一键同步知识库。

    🔧 多种部署方式
    支持 Docker 一键部署(推荐),也支持源码启动。兼容 DeepSeek v4、Gemini 3 Pro、GPT-5 系列等主流大模型,自带 embedding 模型。

    ⚙️ 安装要求与过程
    环境要求
    • CPU ≥ 4核
    • 内存 ≥ 16 GB
    • 磁盘 ≥ 50 GB
    • Docker ≥ 24.0.0 & Docker Compose ≥ v2.26.1
    • 系统参数要求:vm.max_map_count ≥ 262144

    # 1. 克隆仓库
    git clone https://github.com/infiniflow/ragflow.git
    cd ragflow/docker

    # 2. 启动服务(CPU版)
    docker compose -f docker-compose.yml up -d

    # 3. 查看日志确认启动成功
    docker logs -f docker-ragflow-cpu-1

    # 4. 浏览器访问 http://服务器IP
    # 出现 Running on all addresses 即成功!

    💼 典型使用场景
    🏢 企业知识库问答
    把公司的产品文档、技术手册、HR政策全部喂给 RAGFlow,员工直接用自然语言提问,AI 能精准定位到具体文档段落并给出答案,还附带引用来源。比传统关键词搜索强太多了。

    📚 个人学习助手
    上传教材、论文、技术书籍,让 AI 帮你梳理知识点、回答思考题。RAGFlow 对 PDF 的解析特别到位,公式、表格、图表都能正确识别,学习效率高了不少。

    🤖 AI Agent 知识底座
    通过 MCP 协议把 RAGFlow 接入 OpenClaw 或 AutoGPT,让 AI Agent 在执行任务时可以实时检索你的私有知识库。相当于给 Agent 装了一个”外挂大脑”。

    🌟 推荐理由

    我觉得 RAGFlow 最打动我的一点,是它把”可视化”做到了极致。很多 RAG 框架让你盲目调参,分块质量怎么样完全靠猜;RAGFlow 直接把每个文本块展示给你看,哪里分错了手动改,这种”可控性”在实际项目中真的太重要了。

    另外它的文档解析能力确实一流,我试过把一本 500 页的技术书丢进去,公式、代码块、表格全都识别对了,召回准确率相当能打。如果你正在搭建企业知识库或者给 AI Agent 接知识底座,RAGFlow 绝对值得一试。⭐

    📌 本文由 AI 自动采集整理,更多开源项目介绍持续更新中…

    Tags: RAGFlow · RAG · 知识库 · 开源AI

  • OpenAI连发三个语音模型,这次不只是”能说话”

    OpenAI连发三个语音模型,这次不只是”能说话”

    5月7日凌晨,OpenAI一口气发了三款音频模型:GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。官方说法是让开发者能构建”在用户说话时推理、翻译和转写”的实时语音产品。三款模型已经开放给开发者测试了。

    这次更新的重点在于”分工”。三款模型各管一摊事:GPT-Realtime-2管实时语音Agent,GPT-Realtime-Translate管实时翻译,GPT-Realtime-Whisper管实时转写。这个打法很OpenAI——不只要做最好的单一模型,还要把整个语音AI的赛道拆成几块,各自做到极致。

    OpenAI GPT-Realtime-2 语音模型
    GPT-Realtime-2 是 OpenAI 首个具备 GPT-5 级推理能力的语音模型(图源:OpenAI)

    GPT-Realtime-2:从”能说”到”会说”

    GPT-Realtime-2是这次更新的主角。OpenAI官方的说法是,这是第一款具备”GPT-5级推理”的语音模型。这个模型被设计来处理复杂请求、调用工具、处理对话中的打断,还能在更长的语音会话里保持上下文。

    这些能力对应的都是语音Agent落地时最头疼的问题。比如一个用户想咨询买房的事,或者想改签机票,这些场景都可能包含一大堆条件和多轮确认。上下文窗口从32K提升到128K之后,模型可以在更长的实时对话里保留前面出现过的信息,不会聊到一半把前面说的话忘了。

    GPT-Realtime-2在Big Bench Audio测试上比上一代GPT-Realtime-1.5高15.2%,在Audio MultiChallenge上高13.8%。这两个指标衡量的是模型在音频输入、多轮语音、复杂指令和上下文整合方面的能力。

    还有一个很实用的细节:可调推理强度。你可以根据场景选择用多少算力。多数生产场景可以先使用较低的推理强度,优先保证通话里的响应速度;遇到更复杂的客服、预订、排障任务,再提高推理强度,用更多计算换取更完整的判断。这个设计很接地气——语音交互最怕的就是卡顿,用户在电话里等一两秒就会觉得”这AI不行”。


    已经有企业在用了,效果还不错

    OpenAI公布了几个已经在测试的企业用户:美国房地产网站Zillow、旅游预订平台Priceline、德国电信。这些都不是小打小闹的Demo,而是真实业务场景。

    Zillow在用GPT-Realtime-2构建可以理解住房条件并安排看房的语音助手。他们说,在最困难的对抗性测试中,经过prompt优化后,电话任务成功率从69%提升到95%。这个提升幅度很夸张,但也说明语音Agent在垂直场景里确实能干活了。

    Priceline的用例更典型:旅游预订链条很长,用户可能要查航班、订酒店、调整日期、处理延误、比较价格,还可能在境外需要翻译。语音Agent如果能稳定接入后台系统,就有机会把”问答”推进到”办事”。这个跨越才是语音AI真正有价值的地方。

    另外两款模型:翻译和转写

    GPT-Realtime-Translate主打实时语音到语音翻译,支持70多种输入语言到13种输出语言。传统语音翻译常常要求说话人停顿,系统等一句话结束后再翻译;而GPT-Realtime-Translate更接近连续口译的形态,说话人讲话时它就能跟上节奏。

    GPT-Realtime-Whisper则强调实时流式转写,可以在说话人讲话时生成字幕、会议记录和工作流更新。它的价格最便宜,只有0.017美元/分钟。

    三款模型放在一起看,OpenAI已经把实时音频拆成了三个明确入口,价格和延迟要求各不相同。奥特曼想要的可能是”通吃”——不管你要做语音客服、跨语言会议还是实时字幕,都得用我的API。


    语音AI这波竞争,正在从”像人”变成”能办事”

    这个市场里已经有一堆强势玩家了。ElevenLabs今年2月完成5亿美元D轮融资,估值110亿美元;Deepgram今年1月完成1.3亿美元融资,估值13亿美元,服务1300多家客户;Cartesia的Sonic 3模型已经有1万多客户使用,主打90毫秒低延迟。

    OpenAI的优势在于模型栈——它可以把整个企业调用TTS的链路放在同一个开发者平台里。对开发者来说,少接几个供应商,就少一些延迟、集成和运维成本。但语音市场并不好啃,每家都有自己的地盘和忠实客户。

    从目前企业用户的测试反馈来看,GPT-Realtime-2确实在某些场景里把语音Agent的完成率拉到了一个可用的水平。但这波”从对话走向执行”的转型能不能真正跑通,可能还得看接下来半年这些早期客户的真实业务数据。

  • 喊一声就能做播客,Alexa这波升级有点意思

    喊一声就能做播客,Alexa这波升级有点意思

    亚马逊本周一给Alexa+推了个新功能,叫”Alexa Podcasts”。简单来说就是你跟它说个话题,几分钟它就能给你生成一期播客。不用写稿子,不用找素材,甚至不用想大纲——你报个题目,剩下的它全包了。

    我试了试这个流程:你跟Alexa+说”帮我做个关于火星殖民的播客”,它先去搜资料,然后给你列个大纲让你确认。你可以调整长度、语气、侧重点,确认后它就用AI生成的主播声音把节目录好。做完了会在你的Echo Show设备和Alexa应用里发通知,节目还会保存在”音乐”和”更多”板块里,随时能回放。

    Alexa Podcasts功能展示
    Alexa+ 现在可以按需生成播客内容了(图源:Amazon)

    这功能今天开始推给美国用户。亚马逊的官方说法是想把”你好奇的任何话题变成播客节目,几分钟就能搞定”。听起来很诱人,但我觉得这里有几个问题值得琢磨。

    “turn any topic you’re curious about into a podcast episode, ready in minutes.” —— 亚马逊对Alexa Podcasts功能的描述

    从语音助手到内容工厂

    这个功能的意义不只是”多了个玩法”。它标志着Alexa+的定位在发生转变:从回答问题、控制智能家居的语音助手,变成了个性化的AI内容创作平台。你不再只是”问它东西”,而是”让它帮你做东西”。

    但这个方向肯定会引发争议。AI生成的声音、自动化内容这些事,一直都有人在质疑:伦理边界在哪?内容准确性怎么保证?传统播客创作者的生存空间会不会被挤占?尤其是涉及新闻或者复杂话题的时候,AI生成的播客到底靠不靠谱,这事还得打个问号。

    亚马逊自己也知道这个问题,所以找了一堆媒体机构合作。他们宣称Alexa+可以通过合作协议获取实时信息,合作方包括美联社、路透社、《华盛顿邮报》、时代周刊、福布斯、商业内幕、政客、今日美国、康泰纳仕、赫斯特、VOX媒体,还有全美200多家地方报纸。这个阵容确实挺豪华的,但合作归合作,AI对新闻内容的”理解”和”转述”能不能做到不出错,还是要打个问号。


    不只是播客,还有更多玩法

    亚马逊说他们还在探索其他个性化AI音频形式,包括定制化的新闻简报、基于用户个人文档和共享信息生成专属内容等等。这些功能的逻辑都一样:你提供素材(或者让它自己去搜),它帮你做成音频。

    我觉得这事挺有意思的。播客制作一直是个门槛挺高的活:你要会写稿、会录音、会剪辑,还得有个像样的麦克风。现在Alexa+说”这些都不用了,你只要有个想法就行”,这对普通人来说确实是个很低的创作门槛。但反过来想,当所有人都能几分钟做出一期”播客”,播客这个媒介本身的价值会不会被稀释?这事可能还得观望一阵子。

    目前这个功能只在美国推出,国内用户想试还得等等。但按照亚马逊的节奏,如果美国这边反馈好,其他国家应该也不会等太久。

  • 微软AI CEO:18个月内AI接管大部分白领工作,MBA和法学学位正在贬值

    微软AI CEO Mustafa Suleyman两个月前跟《金融时报》说了一句话,让整个白领圈安静了。他说:“12到18个月内,大多数坐在电脑前完成的工作,会被AI完全自动化。” 他列举了会计、法律、营销、项目管理——基本上把办公室里能想到的工作都点了一遍。

    Suleyman不是第一个说这种话的人,但他是目前位置最高的那个。作为微软AI部门的CEO,他管着微软跟OpenAI的合作、Copilot产品线、以及微软自己的大模型研发。他说这话的时候,微软刚刚把Copilot Deep Think(他们的深度推理模型)给Plus用户推了上去。

    “大多数(如果不是全部)专业任务上,AI将达到人类水平。未来一年或18个月内,大部分’坐在电脑前’的任务将被AI完全自动化。”——Mustafa Suleyman,微软AI CEO

    他的依据是算力,不是愿景

    Suleyman的论证逻辑很直接:算力在指数级增长,模型写代码的能力很快就会超过大多数人类程序员。他没有说具体哪个基准测试,但如果你看过过去半年GPT-5.5、Claude Opus 4.7、Gemini 3.1的编码测试成绩,这个判断不算离谱。

    同期还有两个人在说类似的话。Anthropic CEO Dario Amodei去年5月警告AI可能消灭一半入门级白领工作(不过最近他改口了)。福特CEO Jim Farley说AI会把美国白领岗位数量砍一半。马斯克在今年1月的达沃斯论坛上更直接:通用人工智能(AGI)可能在2026年内实现

    但现实跟预测之间有个巨大的裂缝——目前为止,AI在专业服务领域的渗透非常有限。


    实际数据:AI有时候让人变慢

    2025年Thomson Reuters的一份报告发现,律师、会计、审计师确实在用AI做文档审查、常规分析这类定向任务,生产力有边际提升,但离大规模岗位替代还差得很远

    更有意思的是反向结果。非营利组织Model Evaluation and Threat Research(METR)做了一个研究,发现AI让软件开发者的任务完成时间延长了20%。原因挺直观的:开发者要花时间验证AI生成的代码对不对,这个验证时间经常超过自己写的时间。

    经济层面的影响也高度集中在科技行业。Apollo Global Management首席经济学家Torsten Slok的研究显示,2025年第四季度大型科技公司的利润率提升了20%以上,但更广泛的Bloomberg 500指数企业的利润率几乎没有变化。投资者也不太相信AI能提升科技行业以外的企业盈利——这从华尔街对S&P 500的盈利预期就能看出来。

    裁员已经在发生,但规模不大

    就业咨询公司Challenger, Gray & Christmas的数据:2026年截至目前,已有49,135个裁员跟AI相关。微软2025年裁员15,000人,虽然在裁员备忘录里没有明确提出AI是原因,但CEO Satya Nadella说公司必须”为新时代重新构想我们的使命”。

    市场对这个预期的反应很激烈。2026年2月,软件股出现大规模抛售——分析师称之为”SaaSpocalypse“(SaaS末日),因为Anthropic和OpenAI相继发布了企业级智能体AI系统,能做很多SaaS公司的核心工作。投资者担心这些传统软件公司会被AI代理直接替代掉。


    Suleyman的真正目标:让微软不再依赖OpenAI

    Suleyman在访谈里说了一句很直白的话:“创造新模型会变得像创建一个播客或者写一篇博客一样简单。为每个机构、组织和个人设计符合他们需求的AI,这将成为可能。”

    他的核心任务是让微软AI实现”超级智能”(superintelligence),减少对OpenAI的依赖,优先建设微软自己的前沿基础模型。他说:”这是我们这个时代最重要的技术,我们必须开发属于自己的、处于绝对前沿的基础模型。”

    这个战略背后的逻辑很清楚:微软每年给OpenAI付不少钱,如果有一天关系破裂(或者OpenAI自己做了类似Copilot的产品),微软需要一个备选方案。Suleyman之前是DeepMind的联合创始人,后来创办了Inflection AI,2024年被微软挖来做这个”独立模型”的项目。

    但过去三个月的证据显示,AI的实际效果并没有Suleyman预测的那么惊人。Anthropic的Claude正在取代OpenAI成为企业收入第一的模型,但整体AI在企业端的落地还是比预期慢。


    普通白领现在该做什么

    Suleyman的预测听起来吓人,但有几个需要注意的点:

    • 他说的是”坐在电脑前完成的任务”,不是整个岗位。律师的文档审查可能被自动化,但客户谈判、法庭辩论这些需要人的工作还在
    • 18个月是从现在往后算,也就是2027年底之前。这个时间表非常激进,历史上类似的AI预测大部分都延期了
    • MBA和法学学位作为”职场门票”的价值确实在贬值,但贬值速度可能没有Suleyman说的那么快
    • Block CEO Jack Dorsey提出了一个更有意思的观点:AI不仅会替代岗位,还会重构公司本身的组织形式——一个运行了兩千年的逻辑(信息路由=中层管理)可能被重写

    如果你现在在做一个”纯电脑”的白领工作,Suleyman的建议(以及越来越多AI研究者的建议)是:学会用AI工具,让自己变成”用AI完成任务的人”,而不是”被AI替代的人”。这个转型窗口,按照他的时间表,只有18个月。

  • NVIDIA Vera Rubin NVL72发布:推理成本暴降90%,Vera CPU亲自送货上门

    如果你最近关注AI硬件圈,5月18日这天有个消息值得盯一下。NVIDIA CEO黄仁勋站在Dell Technologies World的舞台上,说了一句话:”需求正在抛物线式增长,完全是抛物线。”台下坐着的5000家企业代表应该都听懂了——这里面包括礼来、三星、霍尼韦尔这些已经在用Dell AI Factory跑AI负载的公司。

    这次发布的核心是两个东西:Vera Rubin NVL72架构,以及NVIDIA第一款专门为AI代理(Agent)设计的CPU——Vera CPU。别被名字搞混了,Rubin是GPU架构,Vera是CPU,俩搭配着用。

    推理成本直接砍掉90%

    Vera Rubin NVL72最吓人的数据是:每token推理成本只有上一代Blackwell平台的1/10。换句话说,原来跑100块钱的推理任务,现在只要10块。这个降幅不是靠砍性能换来的——Dell同步发布的PowerEdge XE9812服务器,用HGX Rubin NVL8架构,性能是上一代HGX B200的5.5倍。

    “67%的企业AI工作负载现在跑在云端之外——本地、设备端、边缘、托管机房,这才是真实的企业AI部署现状。”——NVIDIA CEO黄仁勋

    88%的受访企业至少运行1个本地AI工作负载。这个数据背后有个很现实的原因:把数据搬来搬去的成本,比直接在企业自己机房里跑AI贵多了。Vera Rubin NVL72就是为这种场景设计的——专门优化长序列推理和高并发Agent任务。

    Vera CPU:首款为AI代理设计的处理器

    NVIDIA之前出过Grace CPU,但Vera是第一款明确为”AI代理时代”设计的CPU。这里的逻辑是:AI代理干活的时候,不是一口气跑完的,它要查数据库、跑代码、调工具,这些步骤是串行的,特别吃CPU的单线程性能和内存带宽。

    Vera的三个关键数字:

    • 内存带宽1.2TB/s,是其他CPU的3倍
    • AI代理工作负载完成速度比x86处理器快50%
    • 企业数据查询速度提升3倍(Starburst引擎吞吐量提升3倍)

    第一批发货的Vera CPU已经送到三个地方:OpenAI在米申湾的办公室、SpaceX AI在帕洛阿尔托的实验室、以及Anthropic在旧金山的总部。下一批会送到甲骨文云基础设施在圣克拉拉的机房。NVIDIA超大规模计算副总裁Ian Buck亲自送货上门——这阵仗挺少见的,一般芯片发布都是发新闻稿,不会搞”ceo亲自交付”这套。


    2030年的AI基础设施市场:3-4万亿美元

    黄仁勋在台上给出了一个预测:2030年全球AI基础设施支出将达到3-4万亿美元,同期token消耗量预计增长3400%。这两个数字放在一起看就有意思了——基础设施投入增长,单位token成本下降,但总消耗量增长更快,所以市场总盘子还是在爆炸。

    Dell AI Factory这边的策略是把”计算、网络、存储”打包成一个整体方案,客户不用自己拼组件。配套的还有NVIDIA机密计算(Confidential Computing)支持,模型权重和企业数据在运行过程中全程加密,这个对金融、医疗这些敏感行业挺重要的。

    目前已经在Dell AI Factory上跑AI负载的5000家企业里,礼来用它加速药物研发,三星用它跑芯片设计仿真,霍尼韦尔把原来放在公有云上的工业AI迁移回了本地机房。这些案例的背后逻辑都一样:数据搬不动,算力得靠近数据放


    开源模型也在往这套基础设施上迁

    NVIDIA在这次发布会上列了一个支持Dell AI Factory的开源模型清单:Nemotron、Reflection、MiniMax-M2.7、DeepSeek Pro、DeepSeek-V4、GLM 5.1、Kimi K2.6。这些模型都做了NVFP4精度优化,在Vera Rubin架构上跑起来更高效。

    Hugging Face上已经开了Dell Enterprise Hub,企业可以直接拉取这些优化过的模型镜像部署。这个动作的信号很明确:NVIDIA不只是卖芯片,它在搭一个从芯片到模型到部署工具链的完整生态,让企业”买了硬件就能跑起来”,而不是买回去之后发现软件栈对不上。

    下一波详细技术发布会在6月1-4日的COMPUTEX GTC Taipei大会上放出。如果你在关注AI推理成本这条曲线,Vera Rubin NVL72的价格和实测数据值得等一下那个发布会。

  • OpenAI确认打造超级应用:ChatGPT、Codex、浏览器三合一

    OpenAI最近确认了一个挺大的产品调整:他们要把ChatGPT、AI编程工具Codex、还有自己开发的Atlas浏览器,全部合并成一个桌面应用。这个消息是5月正式公开的,但内部备忘录早在3月就写好了。

    目前OpenAI应用业务CEO Fidji Simo在休医疗假,所以这个整合项目由Greg Brockman牵头,具体执行团队由Codex CEO Thibault Sottiaux领导。

    为什么要合并?

    OpenAI过去一年有点产品”摊大饼”的意思——Sora、Atlas、Codex、Canvas,各自为战,工程资源被拆得稀碎。结果就是每个产品都还不错,但都没达到能碾压竞品的那种好。

    合并之后,ChatGPT会作为核心编排层,统一调度对话、编码、浏览器三类能力。你可以直接在对话里让AI写代码,然后立刻用内置浏览器测试运行效果。

    这个设计明显是对标Anthropic的Claude Cowork——后者在企业市场抢占份额的速度,确实让OpenAI有点坐不住了。

    分阶段推进,移动端保持独立

    合并不是一口气完成的,OpenAI做了分阶段规划:

    • 第一阶段:先给Codex加编码之外的通用生产力功能,拓宽使用场景
    • 第二阶段:把Atlas浏览器整合进来,实现对话+编码+网页操作的闭环
    • 第三阶段:ChatGPT作为中枢编排层,统一协调所有功能模块

    有意思的是,移动端的ChatGPT App会保持独立,不参与这次合并。看来OpenAI也清楚,手机上搞太重的应用体验未必好。


    为IPO做准备?

    这个时间点值得玩味。截至2026年2月,ChatGPT周活跃用户9亿;截至5月,Codex周活也到了400万。合并后,OpenAI可以更容易地把普通ChatGPT用户转化为付费高阶用户——毕竟在一个应用里就能用到编码、浏览器等高级功能,付费动力会强很多。

    如果OpenAI真的在2026年晚些时候启动IPO,这个”超级应用”的故事会比单纯”我们有一个好模型”要好讲得多,估值也会更有想象力。

    当然,产品整合这种事,说起来容易做起来难。三个不同定位的产品合并成一个,用户体验能不能做到1+1+1>3,还得等实际产品出来才知道。

  • Google I/O 2026 Day 1直击:Gemini 4.0、Omni多模态、XR眼镜齐亮相

    今天Google I/O 2026正式开幕,谷歌一口气发布了多个重磅产品。看完整个发布会,感觉谷歌这次是认真了,不再是以前那种”我们有个很酷的研究项目”的画饼风格,而是实打实地把AI塞进了每一个产品线里。

    Gemini 4.0:不止是基准测试

    Gemini 4.0这次是真的来了。谷歌没有只拿基准测试分数说事,而是把重点放在了实际应用场景上——Workspace集成、多模态推理、智能体可靠性,这些都是企业用户真正关心的东西。

    外界预期Gemini 4.0在多模态推理上会有显著提升,如果它能接近Claude Mythos Preview的94.6% GPQA成绩,那谷歌就真的把今年早些时候丢掉的话语权给抢回来了。

    谷歌的优势在于生态。安卓30亿+设备、搜索数据、Workspace 2亿+用户,这不是OpenAI或者Anthropic短时间内能追上的。

    Gemini Omni:文本+图像+视频统一管线

    这次最让我意外的是Gemini Omni。它不是Veo的升级版,而是一个统一的文本/图像/视频生成管线,可以在对话窗口里直接生成和编辑视频,还会自动配背景音乐。

    早期泄露的测试报告显示,Omni在提示词保真度和音频质量上都比Veo 3.1强。如果这套系统正式上线,谷歌就是第一个在消费级场景里提供全模态统一生成能力的厂商。叠加安卓生态的分发优势,这个组合拳确实不好接。

    Google I/O 2026
    Google I/O 2026 Day 1 发布会现场

    Android XR眼镜与Aluminium OS

    硬件方面,谷歌和三星、Warby Parker、Gentle Monster、XREAL合作的Android XR眼镜正式亮相。无屏版本重80克以内,售价379-499美元,搭载骁龙AR Gen 3,延迟200ms。这个规格如果能兑现,Meta的Ray-Ban系列可能要感受到压力了。

    更值得关注的是Aluminium OS,这个基于安卓开发的系统将替代ChromeOS,首批笔记本由宏碁、华硕、戴尔、惠普、联想生产,2026年秋季上市。谷歌这是在把安卓的势力范围从手机扩展到PC。


    Gemini Spark:谷歌版的AI智能体

    Gemini Spark是这次发布的一个容易被忽略但很重要的产品。它能自动化跨应用任务——整理收件箱、生成会议简报、追踪新闻事件进展。这和微软的Copilot、Anthropic的Claude Cowork是一个赛道的产品,但谷歌的优势在于它自己的应用生态(Gmail、Calendar、Drive、Docs)。

    总体来看,谷歌这次的策略很清晰:不追求单一的基准测试冠军,而是把Gemini铺到所有能铺的地方——手机、眼镜、笔记本、云端、企业应用。这种打法短期内在基准测试上可能不够性感,但长期来看,生态黏性才是最难被颠覆的壁垒。