博客

  • 斯坦福2026 AI指数报告:AI在狂奔,我们还在找鞋

    斯坦福2026 AI指数报告:AI在狂奔,我们还在找鞋

    如果你在关注AI新闻,你可能会觉得头晕。AI是淘金热。AI是泡沫。AI要抢你工作。AI连时钟都不会读。斯坦福大学以人为本AI研究所发布的2026年AI指数报告,就是为了切断一些噪音而出的年度成绩单。

    报告说,尽管有预测认为AI发展可能会碰壁,但顶级模型一直在变得更好。人们采用AI的速度比采用个人电脑或互联网还快。AI公司生成收入的速度比之前任何技术繁荣时期的公司都快,但它们也在数据中心和芯片上花费了数千亿美元。用来衡量AI的基准测试、用来监管它的政策、就业市场都在努力跟上。AI在狂奔,而我们其他人还在找鞋。

    Stanford 2026 AI Index Report
    斯坦福2026年AI指数报告封面

    美中AI竞赛:差距薄如刀片

    在一场具有巨大地缘政治风险的漫长激烈竞赛中,根据Arena(一个允许用户比较大型语言模型在相同提示下输出的社区驱动排名平台)的数据,美国在AI模型性能上与中国几乎并驾齐驱。

    2023年初,OpenAI凭借ChatGPT领先,但这个差距在2024年随着Google和Anthropic发布自己的模型而缩小。2025年2月,由中国实验室DeepSeek构建的AI模型R1短暂匹配了顶级美国模型ChatGPT。截至2026年3月,Anthropic领先,紧随其后的是xAI、Google和OpenAI。中国模型如DeepSeek和阿里巴巴落后并不多。

    随着最佳AI模型在排名中的差距只有薄如刀片的优势,它们现在在成本、可靠性和现实世界实用性上竞争。

    指数指出,美国和中国有不同的AI优势。虽然美国有更强大的AI模型、更多资本和估计5,427个数据中心(比任何其他国家的10倍还多),但中国在AI研究出版物、专利和机器人技术方面领先。


    AI模型进步速度快得吓人

    尽管有预测认为发展将进入平台期,AI模型仍在变得越来越好。从某些指标来看,它们现在在旨在衡量博士级科学、数学和语言理解的测试上达到或超过了人类专家的表现。

    AI模型的软件工程基准测试SWE-bench Verified,顶级分数从2024年的约60%跃升至2025年的近100%。2025年,一个AI系统独立生成了天气预报。

    “我对这项技术继续改进感到震惊,它根本没有以任何方式进入平台期,”报告的合著者、南加州大学计算机科学家Yolanda Gil说。

    AI模型性能基准测试图表
    AI模型在各种基准测试中的表现趋势

    测试AI的方式坏了

    这些进步报告应该持保留态度。斯坦福报告说,随着模型迅速突破天花板,旨在跟踪AI进步的基准测试也在努力跟上。有些构建得很差——一个测试模型数学能力的流行基准测试有42%的错误率。其他的可以被操纵:例如,当模型在基准测试数据上训练时,它们可以学会得分高而没有变得更聪明。

    因为AI很少以被测试的方式使用,强大的基准测试性能并不总是转化为现实世界的性能。对于复杂、互动的技术如AI代理和机器人,基准测试几乎还不存在。


    AI开始影响就业,年轻人首当其冲

    在成为主流的三年内,AI现在被全球超过一半的人使用,采用速度比个人电脑或互联网都快。估计88%的组织现在使用AI,五分之四的大学生使用它。

    部署还处于早期阶段,AI对就业的影响很难衡量。尽管如此,一些研究表明,AI开始影响某些职业的年轻工作者。根据斯坦福经济学家2025年的一项研究,自2022年以来,22至25岁软件开发人员的就业下降了近20%。

    下降可能不能单独归咎于AI,因为更广泛的宏观经济条件可能是罪魁祸首,但AI似乎正在发挥作用。

    雇主表示招聘可能会继续收紧。根据麦肯锡公司2025年的一项调查,三分之一的组织预计AI将在未来一年缩小他们的劳动力,特别是在服务和供应链运营和软件工程领域。


    所有这些都付出了代价

    所有这些速度都是有代价的。全球AI数据中心现在可以抽取29.6吉瓦的电力,足以在峰值需求时运行整个纽约州。仅运行OpenAI的GPT-4o的年用水量可能超过120万人的饮用水需求。

    同时,芯片的供应链令人担忧地脆弱。美国托管了世界上大多数AI数据中心,而台湾的一家公司台积电制造了几乎所有领先的AI芯片。

  • MIT选出2026年AI最重要的10件事,每一件都在发生

    MIT选出2026年AI最重要的10件事,每一件都在发生

    每次打开AI新闻,都有一股”不知道该看哪里”的焦虑感。模型一个接一个发布、功能三天一小改、公司每周都有大新闻——但哪些真的重要、哪些只是杂音?

    MIT Technology Review在2026年4月首次推出年度清单”10 Things That Matter in AI Right Now”,由AI记者与编辑集体选出今年最值得持续关注的10个AI议题。这份清单不是看谁的模型最强,而是从更大的视角回答:AI正在改变什么,而你应该知道哪些?

    MIT Technology Review 2026年AI最重要的10件事
    MIT Technology Review首次发布AI年度趋势清单

    人形机器人训练资料正在悄悄收集

    人形机器人要学会”动作”,需要的不是更多文字资料,而是人类行为的影片。已有公司设立专门的”训练中心”,雇用工人重复执行特定动作让机器人录影学习。更奇特的是另一种做法:远端遥控人形机器人,由海外某个人”钻进机器人”操纵它的动作。

    人形机器人训练资料这个问题指向一个即将到来的现实:人类的身体动作,正在成为下一波AI训练的核心原料。

    AI加速诈骗,现在就影响你

    AI最直接且现实的黑暗面,不是机器人统治世界,而是诈骗变得更快、更便宜、更难识破。AI降低了诈骗的门槛:你不再需要懂技术才能制作逼真的钓鱼信件、伪造语音通话、或是批量生成假帐号。

    语音诈骗、Deepfake影片诈骗、自动化社交工程攻击,已在全球造成实质财务损失。理解这件事的意义不是叫你不要用AI,而是提醒你:当有人用影片、语音、文字”证明自己是某人”,你需要比以前更谨慎地验证。

    多Agent协作:AI从”一个助手”变成”一支团队”

    第一代AI Agent能帮你浏览网页、写一段程式码,但它们各自为政。下一步是让多个Agent分工合作:一个Agent负责搜集资料、另一个负责分析、第三个负责起草报告、第四个负责执行发布——整套流程自动完成,人只需要在关键节点确认。

    这项趋势在Google、Anthropic、Microsoft等平台的agentic平台陆续推出后,已从概念阶段进入企业落地阶段。对未来几年的影响会是:你交给AI的任务,会开始被一组AI一起完成,而不是靠你自己拼凑不同工具。

    中国的开源押注:免费模型背后的地缘政治

    中国AI实验室正在把顶尖模型免费开放给全球开发者,这个策略让世界各地的应用正在建立在中国AI的基础上。DeepSeek、Qwen(阿里巴巴)、GLM(智谱AI)——这些中国开源模型在关键基准测试上已接近主流商用LLM,加上可免费部署、推论成本较低,让全球开发者纷纷在上面建构应用。

    越来越多美国与全球的应用,正在”默默”跑在中国开源模型上——这个现象已悄悄发生,而且难以逆转。

    反扑浪潮:AI发展速度超过社会准备

    对AI的强力反扑正在全球范围内成形,而且已开始取得具体的小胜利。这波反扑的来源异常多元:保守派和自由派都有、艺术家和工会都有、欧洲监管机构和美国地方政府都有。他们的诉求各异,但共同点是:AI的发展速度已超過社会准备好接受它的速度。

    具体的胜利案例包括多国对AI生成艺术的版权保护立法推进,以及影视、音乐、艺术等产业在合约中加入AI使用授权条款。这件事的长期影响,可能决定未来AI工具的使用规则与创作者的收益分配方式。


    其他值得关注的趋势

    • LLMs Plus:大型语言模型不会消失,但正在被要求做更多、更难、更少出错的事
    • 世界模型:让AI能理解并模拟真实物理世界的系统,对机器人、自动驾驶意义重大
    • AI进军作战室:生成式AI已进入军事决策流程,指挥官真的在采纳它的建议
    • 武器化深伪:Deepfake从”技术上可能”变成了”已成事实”,所有影片都需要怀疑其真实性
    • AI科学家:能自主设计实验、分析数据、提出假设的AI研究代理系统

  • 千问接入淘宝:阿里把AI购物这件事做透了

    对话就能买东西,阿里这次玩真的

    阿里巴巴最近把通义千问和淘宝打通了。不是那种噱头式的”AI购物助手”,而是真正能让用户通过对话完成浏览、比价、下单全流程的整合。你在千问App里说一句话,它就能帮你把商品找好、对比完毕、直接下单。

    这套系统接入了淘宝和天猫超过40亿件商品。40亿是什么概念?基本上你能想到的东西都在里面了。以前要用关键词搜索、翻页、对比详情页,现在直接跟AI说你想要什么,它帮你搞定。

    传统电商的逻辑是”人找货”——你得知道自己要什么、怎么描述、哪个关键词有效。AI购物的逻辑是”对话即交易”——你只需要表达需求,剩下的事AI帮你完成。

    淘宝里头也有AI助手了

    阿里这套打法挺聪明的,不是只做一个独立的AI购物App,而是双向打通。千问App能调用淘宝的商品库,淘宝站内也上线了千问赋能的AI购物助手。

    淘宝里头的AI助手还加了几个实用功能:虚拟试穿、30天价格走势追踪。这些功能单独看不算新鲜,但跟对话式购物结合起来,体验就完全不一样了。你可以直接问”这件衣服我穿好看吗”,AI帮你试穿;也可以说”这个价格划算吗”,AI给你看价格走势。


    依托专属”技能库”,千问还能帮你管理物流、处理售后。以前买完东西要查物流得去淘宝App,要退货得找客服,现在直接在对话里说一声就行。

    中外电商的AI路数不一样

    看看国外的玩法,就会发现阿里的打法挺特别的。亚马逊也在用AI优化购物体验,但它不敢让你直接通过AI完成交易,担心失控。加拿大电商平台Shopify倒是接了AI助手,但它用的是第三方的,自己不研发。

    阿里这种”我有大模型、我有电商平台、我把它们打通”的路数,中外都没几家能抄。Google有模型但没电商,亚马逊有电商但模型不够强,只有阿里两家都有。

    这种全链路打通,才是AI商业化真正有力的打法。不是做个聊天机器人让你玩,而是让AI真正进入交易环节、产生实际收入。


    AI购物到底是噱头还是趋势

    肯定有人会说,这不就是个升级版的”智能客服”吗?其实差别挺大的。智能客服是”你问它答”,而且通常只能处理固定流程里的问题。AI购物助手是”你说需求,它帮你完成交易”,主动权在用户手里,但执行权在AI手里。

    这种模式能不能成,关键看两件事:一是AI推荐的准确性,别你想要的跟它给的不是一回事;二是用户对AI做决策的信任度,敢不敢让它帮你下单、处理售后。

    阿里敢全线铺开,说明它在内部测试里对这两件事都有底气。接下来几个月,看用户买不买账就知道了。

  • 前OpenAI CTO放大招:Thinking Machines实时交互模型200ms响应

    前OpenAI CTO放了个大招

    Mira Murati离开OpenAI自己创业才一年多,前几天直接把第一个模型甩了出来。不是那种传统的”你问一句我答一句”的回合制AI,而是真正能实时互动的交互模型。200毫秒的响应延迟,你随时可以插话打断,AI也能同时听、说、看、调用工具。

    这套系统叫TML-Interaction-Small,采用的是2760亿参数的混合专家架构,每次推理只激活120亿参数。关键是它把前后台拆开了:前台专门维持对话流畅,200毫秒为一个时间片持续接收信息;后台负责复杂推理和工具调用,结果流式返回前台,不会打断你的说话节奏。

    200毫秒是什么概念?人说话时自然的停顿间隔大约是200-300毫秒。也就是说,这个模型的响应速度已经接近人类对话的节奏了。

    不只是速度快

    以前那些号称”实时”的语音AI,本质上都是把语音识别、语言模型、语音合成这几个模块拼在一起,中间靠外部工具协调。你说话的时候AI只能等着,说完一段它才开始处理,这就是典型的”回合制”。

    Thinking Machines这套系统是原生实时交互,从架构层面就设计成可以交错处理音频、视频、文本的流数据。它用的编码方案也挺聪明:音频用dMel轻量编码,图像用hMLL编码,所有组件跟Transformer主干网络一起训练,不用单独的编码器拖慢速度。


    在FD-Bench v1.5基准测试里,这个模型拿了77.8分。作为对比,OpenAI的GPT-Realtime-2和谷歌的Gemini 3.1 Flash Live都没超过它。响应延迟0.40秒,比GPT-Realtime-2快了大概4倍。

    钱和人都不缺

    Murati这个人挺厉害的,在OpenAI当CTO的时候就是技术核心人物之一。她出来单干,投资人直接给了20亿美元种子轮,估值砸到120亿美元。团队里还有FAIR实验室的前研究员Piotr Dollar这种级别的人物。

    算力方面也没拖后腿,跟英伟达、谷歌分别签了超过10亿美元的合作协议,拿到基于GB300芯片的超级计算资源。这种配置,基本上就是把”我要做顶级AI”写在脸上了。

    团队自己说几个月里迭代了12个版本,训练日志写了137页。这种折腾劲,倒是很像早期OpenAI的风格。


    真正的交互应该是什么样

    现在大家用ChatGPT语音模式或者Alexa那种智能助手,体验上总感觉差了点什么。你不能在它说话的时候插话,它也不能在你还在想怎么表达的时候就开始回应。这种”半双工”的交互方式,本质上还是把AI当成一个高级搜索引擎来用。

    Murati想做的,是让AI真正像一个人一样跟你对话。你可以随时打断,它可以同时处理多件事,后台在跑复杂推理的时候前台对话不受影响。这种体验,才是大家一直在说的”贾维斯”该有的样子。

    当然现在这个模型还只是研究预览版,正式开放还要等几个月。但方向已经很明确了:AI交互的下一个战场,不是谁的模型参数更多,而是谁能真正做到”自然对话”。

  • RAGFlow:80.8k Stars!开源RAG引擎,让AI精准理解你的文档

    RAGFlow:80.8k Stars!开源RAG引擎,让AI精准理解你的文档

    📚 RAGFlow
    80.8k Stars!开源RAG引擎,让AI精准理解你的文档
    ⭐ 80.8k Stars
    🔧 RAG引擎
    📄 深度文档理解

    💡 项目简介

    RAGFlow 是一款基于深度文档理解构建的开源 RAG(检索增强生成)引擎,由 InfiniFlow 团队开发。它可以为各种规模的企业及个人提供一套精简的 RAG 工作流,把”大模型+企业知识库”的门槛直接干到地面。

    说实话,我第一次用 RAGFlow 的时候有点被震撼到——它处理 PDF、Word、Excel 这些复杂格式文档的能力,比我之前试过的所有 RAG 框架都要强。关键是它有可视化分块界面,你能看到每个文本块是怎么切的,哪里出了问题直接改,不用盲目调参。

    🚀 核心功能
    📑 深度文档理解
    支持 PDF、Word、Excel、PPT、图片、扫描件等复杂格式,能从非结构化数据中提取精准知识。表格、图表、多栏布局都能正确解析,真正做到了”看懂”文档。

    🔍 高质量RAG管道
    内置多路召回 + 融合重排,支持可视化文本分块,生成结果附带可追溯的引用来源。不再出现”幻觉”回答,每个答案都有据可依。

    🤖 Agent + MCP 支持
    内置 Agent 工作流,支持 MCP 协议接入,可对接 OpenClaw 等 AI Agent 平台。还能接入 Confluence、Notion、Google Drive 等数据源,一键同步知识库。

    🔧 多种部署方式
    支持 Docker 一键部署(推荐),也支持源码启动。兼容 DeepSeek v4、Gemini 3 Pro、GPT-5 系列等主流大模型,自带 embedding 模型。

    ⚙️ 安装要求与过程
    环境要求
    • CPU ≥ 4核
    • 内存 ≥ 16 GB
    • 磁盘 ≥ 50 GB
    • Docker ≥ 24.0.0 & Docker Compose ≥ v2.26.1
    • 系统参数要求:vm.max_map_count ≥ 262144

    # 1. 克隆仓库
    git clone https://github.com/infiniflow/ragflow.git
    cd ragflow/docker

    # 2. 启动服务(CPU版)
    docker compose -f docker-compose.yml up -d

    # 3. 查看日志确认启动成功
    docker logs -f docker-ragflow-cpu-1

    # 4. 浏览器访问 http://服务器IP
    # 出现 Running on all addresses 即成功!

    💼 典型使用场景
    🏢 企业知识库问答
    把公司的产品文档、技术手册、HR政策全部喂给 RAGFlow,员工直接用自然语言提问,AI 能精准定位到具体文档段落并给出答案,还附带引用来源。比传统关键词搜索强太多了。

    📚 个人学习助手
    上传教材、论文、技术书籍,让 AI 帮你梳理知识点、回答思考题。RAGFlow 对 PDF 的解析特别到位,公式、表格、图表都能正确识别,学习效率高了不少。

    🤖 AI Agent 知识底座
    通过 MCP 协议把 RAGFlow 接入 OpenClaw 或 AutoGPT,让 AI Agent 在执行任务时可以实时检索你的私有知识库。相当于给 Agent 装了一个”外挂大脑”。

    🌟 推荐理由

    我觉得 RAGFlow 最打动我的一点,是它把”可视化”做到了极致。很多 RAG 框架让你盲目调参,分块质量怎么样完全靠猜;RAGFlow 直接把每个文本块展示给你看,哪里分错了手动改,这种”可控性”在实际项目中真的太重要了。

    另外它的文档解析能力确实一流,我试过把一本 500 页的技术书丢进去,公式、代码块、表格全都识别对了,召回准确率相当能打。如果你正在搭建企业知识库或者给 AI Agent 接知识底座,RAGFlow 绝对值得一试。⭐

    📌 本文由 AI 自动采集整理,更多开源项目介绍持续更新中…

    Tags: RAGFlow · RAG · 知识库 · 开源AI

  • 2026世界杯足球海报埃及新星潮流运动风

    2026世界杯足球海报埃及新星潮流运动风

    2026世界杯足球海报埃及新星潮流运动风

    2026世界杯足球海报埃及新星潮流运动风


    🇺🇸 English Prompt

    Dynamic high-energy FIFA World Cup 2026 sports poster featuring a confident young male football player walking forward. He has a slim athletic build, sharp jawline, short well-groomed beard, and a powerful streetwear-inspired presence.
    
    He wears a premium oversized hoodie layered under a bold designer zip-up jacket with custom graphic patterns, techwear cargo pants with utility pockets, and luxury designer sneakers. A cross-body messenger bag is strapped across his chest while he carries a matching premium duffle bag in one hand. A sleek football rests near his feet.
    
    The background is an explosive cinematic collage blending football stadium elements, gritty textures, abstract paint splatters, distressed brush strokes, and iconic national symbols of Japan. Aggressive contrasting color palette dominated by the country’s national colors with sharp black and white accents.
    
    Large bold typography at the top reads Eygpt RISING STAr with FIFA World Cup 2026” placed below in clean modern styling.
    
    Professional sports campaign aesthetic, dramatic cinematic lighting, ultra-detailed textures, urban hypebeast energy, photorealistic concept art, high-fidelity composition, powerful atmosphere, 8K quality, 4:5 aspect ratio.
    
    Negative Prompt: blurry face, distorted anatomy, extra limbs, cartoon style, low quality, unrealistic proportions, messy composition, duplicate objects.
  • OpenAI连发三个语音模型,这次不只是”能说话”

    OpenAI连发三个语音模型,这次不只是”能说话”

    5月7日凌晨,OpenAI一口气发了三款音频模型:GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。官方说法是让开发者能构建”在用户说话时推理、翻译和转写”的实时语音产品。三款模型已经开放给开发者测试了。

    这次更新的重点在于”分工”。三款模型各管一摊事:GPT-Realtime-2管实时语音Agent,GPT-Realtime-Translate管实时翻译,GPT-Realtime-Whisper管实时转写。这个打法很OpenAI——不只要做最好的单一模型,还要把整个语音AI的赛道拆成几块,各自做到极致。

    OpenAI GPT-Realtime-2 语音模型
    GPT-Realtime-2 是 OpenAI 首个具备 GPT-5 级推理能力的语音模型(图源:OpenAI)

    GPT-Realtime-2:从”能说”到”会说”

    GPT-Realtime-2是这次更新的主角。OpenAI官方的说法是,这是第一款具备”GPT-5级推理”的语音模型。这个模型被设计来处理复杂请求、调用工具、处理对话中的打断,还能在更长的语音会话里保持上下文。

    这些能力对应的都是语音Agent落地时最头疼的问题。比如一个用户想咨询买房的事,或者想改签机票,这些场景都可能包含一大堆条件和多轮确认。上下文窗口从32K提升到128K之后,模型可以在更长的实时对话里保留前面出现过的信息,不会聊到一半把前面说的话忘了。

    GPT-Realtime-2在Big Bench Audio测试上比上一代GPT-Realtime-1.5高15.2%,在Audio MultiChallenge上高13.8%。这两个指标衡量的是模型在音频输入、多轮语音、复杂指令和上下文整合方面的能力。

    还有一个很实用的细节:可调推理强度。你可以根据场景选择用多少算力。多数生产场景可以先使用较低的推理强度,优先保证通话里的响应速度;遇到更复杂的客服、预订、排障任务,再提高推理强度,用更多计算换取更完整的判断。这个设计很接地气——语音交互最怕的就是卡顿,用户在电话里等一两秒就会觉得”这AI不行”。


    已经有企业在用了,效果还不错

    OpenAI公布了几个已经在测试的企业用户:美国房地产网站Zillow、旅游预订平台Priceline、德国电信。这些都不是小打小闹的Demo,而是真实业务场景。

    Zillow在用GPT-Realtime-2构建可以理解住房条件并安排看房的语音助手。他们说,在最困难的对抗性测试中,经过prompt优化后,电话任务成功率从69%提升到95%。这个提升幅度很夸张,但也说明语音Agent在垂直场景里确实能干活了。

    Priceline的用例更典型:旅游预订链条很长,用户可能要查航班、订酒店、调整日期、处理延误、比较价格,还可能在境外需要翻译。语音Agent如果能稳定接入后台系统,就有机会把”问答”推进到”办事”。这个跨越才是语音AI真正有价值的地方。

    另外两款模型:翻译和转写

    GPT-Realtime-Translate主打实时语音到语音翻译,支持70多种输入语言到13种输出语言。传统语音翻译常常要求说话人停顿,系统等一句话结束后再翻译;而GPT-Realtime-Translate更接近连续口译的形态,说话人讲话时它就能跟上节奏。

    GPT-Realtime-Whisper则强调实时流式转写,可以在说话人讲话时生成字幕、会议记录和工作流更新。它的价格最便宜,只有0.017美元/分钟。

    三款模型放在一起看,OpenAI已经把实时音频拆成了三个明确入口,价格和延迟要求各不相同。奥特曼想要的可能是”通吃”——不管你要做语音客服、跨语言会议还是实时字幕,都得用我的API。


    语音AI这波竞争,正在从”像人”变成”能办事”

    这个市场里已经有一堆强势玩家了。ElevenLabs今年2月完成5亿美元D轮融资,估值110亿美元;Deepgram今年1月完成1.3亿美元融资,估值13亿美元,服务1300多家客户;Cartesia的Sonic 3模型已经有1万多客户使用,主打90毫秒低延迟。

    OpenAI的优势在于模型栈——它可以把整个企业调用TTS的链路放在同一个开发者平台里。对开发者来说,少接几个供应商,就少一些延迟、集成和运维成本。但语音市场并不好啃,每家都有自己的地盘和忠实客户。

    从目前企业用户的测试反馈来看,GPT-Realtime-2确实在某些场景里把语音Agent的完成率拉到了一个可用的水平。但这波”从对话走向执行”的转型能不能真正跑通,可能还得看接下来半年这些早期客户的真实业务数据。

  • 喊一声就能做播客,Alexa这波升级有点意思

    喊一声就能做播客,Alexa这波升级有点意思

    亚马逊本周一给Alexa+推了个新功能,叫”Alexa Podcasts”。简单来说就是你跟它说个话题,几分钟它就能给你生成一期播客。不用写稿子,不用找素材,甚至不用想大纲——你报个题目,剩下的它全包了。

    我试了试这个流程:你跟Alexa+说”帮我做个关于火星殖民的播客”,它先去搜资料,然后给你列个大纲让你确认。你可以调整长度、语气、侧重点,确认后它就用AI生成的主播声音把节目录好。做完了会在你的Echo Show设备和Alexa应用里发通知,节目还会保存在”音乐”和”更多”板块里,随时能回放。

    Alexa Podcasts功能展示
    Alexa+ 现在可以按需生成播客内容了(图源:Amazon)

    这功能今天开始推给美国用户。亚马逊的官方说法是想把”你好奇的任何话题变成播客节目,几分钟就能搞定”。听起来很诱人,但我觉得这里有几个问题值得琢磨。

    “turn any topic you’re curious about into a podcast episode, ready in minutes.” —— 亚马逊对Alexa Podcasts功能的描述

    从语音助手到内容工厂

    这个功能的意义不只是”多了个玩法”。它标志着Alexa+的定位在发生转变:从回答问题、控制智能家居的语音助手,变成了个性化的AI内容创作平台。你不再只是”问它东西”,而是”让它帮你做东西”。

    但这个方向肯定会引发争议。AI生成的声音、自动化内容这些事,一直都有人在质疑:伦理边界在哪?内容准确性怎么保证?传统播客创作者的生存空间会不会被挤占?尤其是涉及新闻或者复杂话题的时候,AI生成的播客到底靠不靠谱,这事还得打个问号。

    亚马逊自己也知道这个问题,所以找了一堆媒体机构合作。他们宣称Alexa+可以通过合作协议获取实时信息,合作方包括美联社、路透社、《华盛顿邮报》、时代周刊、福布斯、商业内幕、政客、今日美国、康泰纳仕、赫斯特、VOX媒体,还有全美200多家地方报纸。这个阵容确实挺豪华的,但合作归合作,AI对新闻内容的”理解”和”转述”能不能做到不出错,还是要打个问号。


    不只是播客,还有更多玩法

    亚马逊说他们还在探索其他个性化AI音频形式,包括定制化的新闻简报、基于用户个人文档和共享信息生成专属内容等等。这些功能的逻辑都一样:你提供素材(或者让它自己去搜),它帮你做成音频。

    我觉得这事挺有意思的。播客制作一直是个门槛挺高的活:你要会写稿、会录音、会剪辑,还得有个像样的麦克风。现在Alexa+说”这些都不用了,你只要有个想法就行”,这对普通人来说确实是个很低的创作门槛。但反过来想,当所有人都能几分钟做出一期”播客”,播客这个媒介本身的价值会不会被稀释?这事可能还得观望一阵子。

    目前这个功能只在美国推出,国内用户想试还得等等。但按照亚马逊的节奏,如果美国这边反馈好,其他国家应该也不会等太久。

  • 微软AI CEO:18个月内AI接管大部分白领工作,MBA和法学学位正在贬值

    微软AI CEO Mustafa Suleyman两个月前跟《金融时报》说了一句话,让整个白领圈安静了。他说:“12到18个月内,大多数坐在电脑前完成的工作,会被AI完全自动化。” 他列举了会计、法律、营销、项目管理——基本上把办公室里能想到的工作都点了一遍。

    Suleyman不是第一个说这种话的人,但他是目前位置最高的那个。作为微软AI部门的CEO,他管着微软跟OpenAI的合作、Copilot产品线、以及微软自己的大模型研发。他说这话的时候,微软刚刚把Copilot Deep Think(他们的深度推理模型)给Plus用户推了上去。

    “大多数(如果不是全部)专业任务上,AI将达到人类水平。未来一年或18个月内,大部分’坐在电脑前’的任务将被AI完全自动化。”——Mustafa Suleyman,微软AI CEO

    他的依据是算力,不是愿景

    Suleyman的论证逻辑很直接:算力在指数级增长,模型写代码的能力很快就会超过大多数人类程序员。他没有说具体哪个基准测试,但如果你看过过去半年GPT-5.5、Claude Opus 4.7、Gemini 3.1的编码测试成绩,这个判断不算离谱。

    同期还有两个人在说类似的话。Anthropic CEO Dario Amodei去年5月警告AI可能消灭一半入门级白领工作(不过最近他改口了)。福特CEO Jim Farley说AI会把美国白领岗位数量砍一半。马斯克在今年1月的达沃斯论坛上更直接:通用人工智能(AGI)可能在2026年内实现

    但现实跟预测之间有个巨大的裂缝——目前为止,AI在专业服务领域的渗透非常有限。


    实际数据:AI有时候让人变慢

    2025年Thomson Reuters的一份报告发现,律师、会计、审计师确实在用AI做文档审查、常规分析这类定向任务,生产力有边际提升,但离大规模岗位替代还差得很远

    更有意思的是反向结果。非营利组织Model Evaluation and Threat Research(METR)做了一个研究,发现AI让软件开发者的任务完成时间延长了20%。原因挺直观的:开发者要花时间验证AI生成的代码对不对,这个验证时间经常超过自己写的时间。

    经济层面的影响也高度集中在科技行业。Apollo Global Management首席经济学家Torsten Slok的研究显示,2025年第四季度大型科技公司的利润率提升了20%以上,但更广泛的Bloomberg 500指数企业的利润率几乎没有变化。投资者也不太相信AI能提升科技行业以外的企业盈利——这从华尔街对S&P 500的盈利预期就能看出来。

    裁员已经在发生,但规模不大

    就业咨询公司Challenger, Gray & Christmas的数据:2026年截至目前,已有49,135个裁员跟AI相关。微软2025年裁员15,000人,虽然在裁员备忘录里没有明确提出AI是原因,但CEO Satya Nadella说公司必须”为新时代重新构想我们的使命”。

    市场对这个预期的反应很激烈。2026年2月,软件股出现大规模抛售——分析师称之为”SaaSpocalypse“(SaaS末日),因为Anthropic和OpenAI相继发布了企业级智能体AI系统,能做很多SaaS公司的核心工作。投资者担心这些传统软件公司会被AI代理直接替代掉。


    Suleyman的真正目标:让微软不再依赖OpenAI

    Suleyman在访谈里说了一句很直白的话:“创造新模型会变得像创建一个播客或者写一篇博客一样简单。为每个机构、组织和个人设计符合他们需求的AI,这将成为可能。”

    他的核心任务是让微软AI实现”超级智能”(superintelligence),减少对OpenAI的依赖,优先建设微软自己的前沿基础模型。他说:”这是我们这个时代最重要的技术,我们必须开发属于自己的、处于绝对前沿的基础模型。”

    这个战略背后的逻辑很清楚:微软每年给OpenAI付不少钱,如果有一天关系破裂(或者OpenAI自己做了类似Copilot的产品),微软需要一个备选方案。Suleyman之前是DeepMind的联合创始人,后来创办了Inflection AI,2024年被微软挖来做这个”独立模型”的项目。

    但过去三个月的证据显示,AI的实际效果并没有Suleyman预测的那么惊人。Anthropic的Claude正在取代OpenAI成为企业收入第一的模型,但整体AI在企业端的落地还是比预期慢。


    普通白领现在该做什么

    Suleyman的预测听起来吓人,但有几个需要注意的点:

    • 他说的是”坐在电脑前完成的任务”,不是整个岗位。律师的文档审查可能被自动化,但客户谈判、法庭辩论这些需要人的工作还在
    • 18个月是从现在往后算,也就是2027年底之前。这个时间表非常激进,历史上类似的AI预测大部分都延期了
    • MBA和法学学位作为”职场门票”的价值确实在贬值,但贬值速度可能没有Suleyman说的那么快
    • Block CEO Jack Dorsey提出了一个更有意思的观点:AI不仅会替代岗位,还会重构公司本身的组织形式——一个运行了兩千年的逻辑(信息路由=中层管理)可能被重写

    如果你现在在做一个”纯电脑”的白领工作,Suleyman的建议(以及越来越多AI研究者的建议)是:学会用AI工具,让自己变成”用AI完成任务的人”,而不是”被AI替代的人”。这个转型窗口,按照他的时间表,只有18个月。

  • NVIDIA Vera Rubin NVL72发布:推理成本暴降90%,Vera CPU亲自送货上门

    如果你最近关注AI硬件圈,5月18日这天有个消息值得盯一下。NVIDIA CEO黄仁勋站在Dell Technologies World的舞台上,说了一句话:”需求正在抛物线式增长,完全是抛物线。”台下坐着的5000家企业代表应该都听懂了——这里面包括礼来、三星、霍尼韦尔这些已经在用Dell AI Factory跑AI负载的公司。

    这次发布的核心是两个东西:Vera Rubin NVL72架构,以及NVIDIA第一款专门为AI代理(Agent)设计的CPU——Vera CPU。别被名字搞混了,Rubin是GPU架构,Vera是CPU,俩搭配着用。

    推理成本直接砍掉90%

    Vera Rubin NVL72最吓人的数据是:每token推理成本只有上一代Blackwell平台的1/10。换句话说,原来跑100块钱的推理任务,现在只要10块。这个降幅不是靠砍性能换来的——Dell同步发布的PowerEdge XE9812服务器,用HGX Rubin NVL8架构,性能是上一代HGX B200的5.5倍。

    “67%的企业AI工作负载现在跑在云端之外——本地、设备端、边缘、托管机房,这才是真实的企业AI部署现状。”——NVIDIA CEO黄仁勋

    88%的受访企业至少运行1个本地AI工作负载。这个数据背后有个很现实的原因:把数据搬来搬去的成本,比直接在企业自己机房里跑AI贵多了。Vera Rubin NVL72就是为这种场景设计的——专门优化长序列推理和高并发Agent任务。

    Vera CPU:首款为AI代理设计的处理器

    NVIDIA之前出过Grace CPU,但Vera是第一款明确为”AI代理时代”设计的CPU。这里的逻辑是:AI代理干活的时候,不是一口气跑完的,它要查数据库、跑代码、调工具,这些步骤是串行的,特别吃CPU的单线程性能和内存带宽。

    Vera的三个关键数字:

    • 内存带宽1.2TB/s,是其他CPU的3倍
    • AI代理工作负载完成速度比x86处理器快50%
    • 企业数据查询速度提升3倍(Starburst引擎吞吐量提升3倍)

    第一批发货的Vera CPU已经送到三个地方:OpenAI在米申湾的办公室、SpaceX AI在帕洛阿尔托的实验室、以及Anthropic在旧金山的总部。下一批会送到甲骨文云基础设施在圣克拉拉的机房。NVIDIA超大规模计算副总裁Ian Buck亲自送货上门——这阵仗挺少见的,一般芯片发布都是发新闻稿,不会搞”ceo亲自交付”这套。


    2030年的AI基础设施市场:3-4万亿美元

    黄仁勋在台上给出了一个预测:2030年全球AI基础设施支出将达到3-4万亿美元,同期token消耗量预计增长3400%。这两个数字放在一起看就有意思了——基础设施投入增长,单位token成本下降,但总消耗量增长更快,所以市场总盘子还是在爆炸。

    Dell AI Factory这边的策略是把”计算、网络、存储”打包成一个整体方案,客户不用自己拼组件。配套的还有NVIDIA机密计算(Confidential Computing)支持,模型权重和企业数据在运行过程中全程加密,这个对金融、医疗这些敏感行业挺重要的。

    目前已经在Dell AI Factory上跑AI负载的5000家企业里,礼来用它加速药物研发,三星用它跑芯片设计仿真,霍尼韦尔把原来放在公有云上的工业AI迁移回了本地机房。这些案例的背后逻辑都一样:数据搬不动,算力得靠近数据放


    开源模型也在往这套基础设施上迁

    NVIDIA在这次发布会上列了一个支持Dell AI Factory的开源模型清单:Nemotron、Reflection、MiniMax-M2.7、DeepSeek Pro、DeepSeek-V4、GLM 5.1、Kimi K2.6。这些模型都做了NVFP4精度优化,在Vera Rubin架构上跑起来更高效。

    Hugging Face上已经开了Dell Enterprise Hub,企业可以直接拉取这些优化过的模型镜像部署。这个动作的信号很明确:NVIDIA不只是卖芯片,它在搭一个从芯片到模型到部署工具链的完整生态,让企业”买了硬件就能跑起来”,而不是买回去之后发现软件栈对不上。

    下一波详细技术发布会在6月1-4日的COMPUTEX GTC Taipei大会上放出。如果你在关注AI推理成本这条曲线,Vera Rubin NVL72的价格和实测数据值得等一下那个发布会。