博客

  • 马斯克告OpenAI案进入庭审:陪审团到底要判什么?

    加州九名陪审员现在正在审议这个案子——Elon Musk把OpenAI的联合创始人及微软告上了法庭。

    Musk到底在争什么?

    诉讼核心围绕三个主张:

    • 违反慈善信托:Musk方认为他的捐款有明确附加条件——只能用于推进OpenAI的非营利使命,让AI惠及全人类,而不该被拿去支持商业化产品
    • 不当得利:联合创始人Altman、Greg Brockman等人通过OpenAI营利子公司套现,Musk认为这本质上是用他的捐款在养肥这些人
    • 协助违约:微软明知Musk的捐款有条件,还帮OpenAI偏离了原始使命

    Musk方把2023年微软那笔100亿美元投资视为”关键转折点”——正是这笔交易,让OpenAI的营利性质彻底压过了慈善属性。

    OpenAI怎么反驳?

    OpenAI的辩护律师阵容相当豪华,从慈善信托的成立依据到诉讼时效,一路反击。核心论点有三个:

    • 诉讼时效:一名审计会计师作证说,Musk的所有捐款在2021年8月5日之前就已全部用完。这意味着即便存在违约,也早已超过了法律追诉期限
    • 无限制条件:OpenAI要求所有证人描述Musk捐款的”具体限制”,结果无论是他的财务顾问Jared Birchall、首席幕僚Sam Teller还是特别顾问Shivon Zilis,没有一个人能说出来
    • 道德污点:Musk本人在担任OpenAI主席期间就已在策划自己的竞品AI,还挖走了OpenAI的研究人员去特斯拉做AI——OpenAI律师直接说:”Musk在2018年就放弃OpenAI了。”

    OpenAI的律师指出,营利子公司已为非营利基金会积累了近2000亿美元的股权价值。Altman本人甚至在法庭上辩护:”ChatGPT免费向公众开放,这本身就是把AI好处分享给全世界的体现。”

    微软的角色:帮凶还是旁观者?

    Musk方把矛头指向了微软——指出微软与OpenAI的协议中包含一个条款,赋予了微软对OpenAI重大决策的否决权。Musk方认为,这说明微软深度介入了OpenAI的战略转向,是”协助违约”的直接证据。

    微软方面的证人则坚持,公司高管在尽职调查中从未被告知Musk捐款附带任何条件,微软也从没动用过这个否决权。CEO纳德拉在Altman被炒又火线回归的”那几天”里确实出手帮了忙,但这究竟是”帮忙稳定局面”还是”干预非营利治理”,陪审团还得自己判断。

    这案子最终会怎么收场?

    如果Musk胜诉,理论上OpenAI可能被迫转型为纯公益机构,不再有营利子公司。但这背后的执行复杂度极高——下周法官还要单独开一系列听证会,讨论如果陪审团判Musk赢,具体的救济措施是什么。

    不管结果如何,这场官司早已超越了个人恩怨。它在拷问一个问题:全球最顶尖的AI实验室,到底是”造福人类的安全网”,还是”穿着慈善外衣的商业机器”?这个问题的重要性,大概比陪审团的任何裁决都要深远得多。


    Elon Musk与Sam Altman
    图:Elon Musk vs. OpenAI — 庭审现场
    📎 原文来源:What the jury will actually decide in the case of Elon Musk vs. Sam Altman — TechCrunch, Tim Fernholz, 2026-05-14
  • Runway不服硅谷规则:押注世界模型,要和Google正面对决

    Runway这家AI视频生成创业公司,没有典型的硅谷血统。没有斯坦福创始人,没有前Google员工,没有九位数的种子轮让你有资本无视收入。它的三个创始人——两个来自智利,一个来自希腊——在纽约大学Tisch艺术学院相遇,然后在纽约建立了这家公司。

    但Runway也可能是当今最重要的AI公司之一,这取决于你问谁。不是因为它已经构建了什么,而是因为它正在试图构建什么。

    “每个主要AI实验室都在押注语言。Runway押注他们都错了。”

    不同的赌注

    过去几年,AI行业基本在一个前提上运作:智能存在于语言中。OpenAI的ChatGPT和Anthropic的Claude这样的大语言模型反映了这个赌注。

    Runway和其他一些竞争对手正在做一个不同的赌注。它的创始人相信,下一代AI智能不会从文本中构建,而是从视频和世界模型中学习这个世界如何运作,而不仅仅是人类如何描述它。这个区别听起来很学术,但它的影响可不学术。

    Runway联合创始人兼联席CEO Anastasis Germanidis说,直接在来自世界的观察数据上训练模型是AI的下一个前沿。他认为,最先到达那里的公司,不会是那些完善了语言的公司。

    Runway三位创始人
    Runway三位创始人(左起:Cristóbal Valenzuela, Anastasis Germanidis, Alejandro Matamala Ortiz)

    从视频生成到世界模型

    Germanidis告诉TechCrunch:”我们基本上受限于自己对现实的理解。语言模型是在整个互联网上训练的,在留言板、社交媒体、教科书上——提炼现有的人类知识。但要超越这一点,我们需要利用更少偏见的数据。”

    成立于2018年的Runway以其视频生成模型(包括最新的Gen-4.5)和让人们将文本提示转换为可编辑的电影内容的AI工具建立了声誉。

    今天,Runway的技术为电影制作人和广告公司提供生产工作流程,并且该公司已与主要媒体公司如Lionsgate和AMC Networks签署了协议。它的工具甚至被用于像《Everything Everywhere All At Once》这样的电影中。


    商业表现与估值

    Runway现在的估值为53亿美元,并且根据其一位创始人的说法,在2026年第二季度增加了4000万美元的年度经常性收入(ARR)。

    如果Runway关于视频生成是通往世界模型的道路的赌注成功,其结果将从好莱坞影响到药物发现和机器人技术。如果不成功,Runway就有可能被资金远为雄厚的竞争对手——其中Google首当其冲——超越。

    世界模型:科学的数字基础设施

    在过去的六个月里,这家创业公司已经将其计划付诸行动,扩展到视频生成之外,在12月推出了它的第一个世界模型(AI系统可以足够好地模拟环境来预测它们将如何行为),并计划在今年推出另一个。

    Germanidis将世界模型视为科学基础设施。你在单个模型上训练的感觉数据和观察越多,你就越接近宇宙的工作数字孪生——一个你可以比任何实验室都快地运行实验的模型。

    “如果我们能建立一个比人类科学家更好的科学家,我们就能加速我们理解宇宙和解决问题的方式。” —— Anastasis Germanidis

    竞争加剧:不缺对手

    Runway在追求将物理感知的视频模型转化为世界模型方面并不孤单,近期应用案例包括交互式娱乐、游戏和机器人训练。初创公司Luma和World Labs也处于类似的轨迹上,Google也将其Genie世界模型指向同一方向。

    所有人都在追求某种版本的同一件事:解决人类最困难问题的AI。这与Runway的原始产品相去甚远,但这是技术中突现能力和创始人倾向于跟随它引导的结果。

    Runway能否将其视频主导地位带入世界模型还远未确定,竞争也不会等待。Runway是首批开发AI视频生成的公司之一,但世界模型是一场不同的竞赛,有资金雄厚且备受尊敬的竞争对手。Google、前Meta首席科学家Yann LeCun、AI的”教母”Fei-Fei Li,以及越来越多的初创公司都在追逐同一个目标。

    资源和挑战

    AI技能基准公司Workera的CEO兼斯坦福大学讲师Kian Katanforoosh指出,还没有人证明通过世界模型在视频智能和通用推理之间的跳跃,但这并不意味着不可能。他说,如果Runway想将其世界模型赌注变为现实,就需要继续收集资源——其中计算能力首当其冲。

    Runway与CoreWeave和Nvidia有协议,但不愿确认是否有专用的集群访问权限——这是训练前沿模型所需的有保障的大规模计算。

    “没有集群,你要如何建立基础模型?我不认为任何人能做到。” —— Kian Katanforoosh

    Runway迄今为止已筹集了8.6亿美元,包括2月份来自AMD Ventures和Nvidia等战略合作伙伴的3.15亿美元轮融资。根据PitchBook的数据,这与其最直接的竞争对手Luma AI和World Labs大致一致,后两者分别筹集了9亿美元和12.9亿美元。

    但Runway也要面对现任者如OpenAI(根据CEO Sam Altman的说法已筹集约1750亿美元)和科技巨头Google的竞争,其母公司的价值为4.86万亿美元。Google是Runway的最大威胁。该公司的Veo模型直接与Runway的视频生成业务竞争,而其Genie世界模型针对的是Runway正在冲刺的同一长期领域。


    Runway的优势:不按常理出牌

    Katanforoosh并没有把Runway排除在外。他指向AI音频初创公司ElevenLabs,该公司在自己的基准测试上超越了OpenAI和Google,尽管缺乏任一公司的资源和血统。他认为,Runway可以遵循类似的剧本。

    这种比较并没有失去Runway创始人的注意。Valenzuela说,创业公司缺乏湾区的”标准化”给了他们优势。他认为,他们不仅有思想的多样性,而且没有硅谷的关系,他们必须更加精明,缺乏许多同行可以获得的战争基金,这些基金本可以使他们不必在早期生成收入。

    根据Runway首席运营官Michelle Kwon的说法,尽管计算需求随着规模增加,公司并不急于筹集更多资金。

    早期投资者、Compound的管理合伙人Michael Dempsey告诉TechCrunch:”他们的背景让他们能够早早出发,比不更频繁地正确,并建立一种移动得非常快的文化。”

    对Valenzuela来说,这种文化始于他首先如何看待世界。他会把任何空闲时间——作为联席CEO和新父亲,时间不多——用来读书,包括智利诗人Nicanor Parra,他描述为Pablo Neruda的对立面:不那么正式,不那么学术,持有一种认为诗歌属于人民而不是规则的观点。

    “规则只是他们发明的规则。这是我们在Runway做事的一个驱动力。他们说硅谷在这里,初创公司就在这里。为什么?那些只是编造的规则。把它们都擦掉,重新开始。” —— Cristóbal Valenzuela

    📎 原文来源:Runway started by helping filmmakers — now it wants to beat Google at AI(TechCrunch, Rebecca Bellan, 2026-05-15)
  • AI淘金热的两极分化:1万人财富自由,其他人却在焦虑什么?

    旧金山的AI淘金热听起来很美好,但现实却是一幅两极分化的景象。 Menlo Ventures的合伙人Deedy Das在社交媒体上发了一篇长文,描述的现象让人咋舌——他说旧金山现在”相当 frenetic(疯狂)”,他见过的最严重的结果分化正在发生。

    Das用了一个” envelope背面计算法”来估算:大概有1万人——包括OpenAI、Anthropic、xAI、Nvidia、Meta TBD这些公司的员工和创始人——已经积累了远超2000万美元的”退休财富”。而其他人呢?即便年薪不到50万美元(这在科技圈已经很高了),他们担心自己一辈子都达不到那个水平。

    “你可以工作一辈子,拿着高薪,但永远到不了那个境界。”这就是大多数科技工作者的现状。

    裁员潮和技能焦虑

    更糟糕的是,裁员正在全面展开。许多软件工程师觉得他们一辈子的技能突然不再有用,这对职业道路的选择造成了混乱,也让人对工作的未来感到深深的萎靡。

    当然,Das的帖子在X上引发了一些白眼。企业家Deva Hazarika认为,帖子里提到的大多数人已经”非常幸运”,完全可以选择开心一点。还有用户指出,在当前这个周期里,同样的技术既是彩票彩票,又在吞噬你的退路——这”相当新颖,也有点恶心”。


    一个时代的缩影

    这大概是AI时代最讽刺的写照:创造财富的技术,同时也在摧毁那些没赶上车的人的职业安全感。1万人的财富自由,换来的是无数科技工作者的存在焦虑。

    有意思的是,这种分化在科技行业内部都这么严重,更不用说整个社会了。AI淘金热创造的不是共同富裕,而是前所未有的财富鸿沟。

    📎 原文来源:The haves and have nots of the AI gold rush(TechCrunch, Anthony Ha, 2026-05-16)
  • ComfyUI:106k Stars!节点式AI创作引擎,让图像生成像搭积木一样可控

    ComfyUI - 最强大的开源节点式生成式AI引擎

    用Stable Diffusion画图的人,大概分两派:一派用WebUI,图个省事;另一派用ComfyUI,追求极致控制力。

    我一开始也是WebUI用户,觉得节点式界面太复杂了。直到有一次我想做一个多步重绘+放大+色调调整的流水线,发现WebUI根本搞不定这种复杂工作流,才被硬推到了ComfyUI这边。

    结果上手之后回不去了 —— 这种节点式的工作流编排方式,一旦理解了逻辑,创作效率简直是质的飞跃。


    🚀 项目简介

    ComfyUI 是目前最强大的开源节点式生成式AI引擎,拥有 106k+ GitHub Stars。它通过可视化节点画布,让用户自由组合各类AI模型和操作,实现高度可定制、可控制的内容生成。不仅支持图像生成,还能处理视频、3D、音频等多种模态。


    ⚙️ 安装要求和过程

    📋 环境要求

    • 操作系统:Windows / macOS / Linux
    • Python 3.13(推荐)或 3.12
    • 显卡:NVIDIA(CUDA 13.0)/ AMD / Intel Arc / Apple Silicon(M系列)
    • PyTorch 2.4+
    • 浏览器:Chrome 143+(推荐)

    🚀 快速安装

    方式一:便携版(Windows,最简单)

    # 下载便携版压缩包,解压即用
    # 内置 Python 3.13 + PyTorch CUDA 13.0
    # 运行 run_nvidia_gpu.bat 即可启动

    方式二:手动安装(全平台)

    git clone https://github.com/comfyanonymous/ComfyUI.git
    cd ComfyUI
    pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu130
    pip install -r requirements.txt
    python main.py

    方式三:桌面版(Windows/macOS)

    # 从 comfy.org 下载桌面安装包
    # 支持一键安装,适合新手

    💡 核心功能

    • 🧩 节点式工作流:通过可视化节点画布自由编排AI生成流程,每个节点负责一个独立操作(加载模型、生成图像、调整尺寸等),灵活度和可控性远超传统UI
    • 🎨 多模态支持:不仅支持图像生成(文生图、图生图、局部重绘、画面外扩),还能处理视频生成、3D模型创建、音频合成等多种创作场景
    • 🔌 丰富的自定义节点生态:Comfy Hub 上有全球创作者分享的数千个工作流和节点插件,一键导入即可使用,持续扩展能力边界
    • 🤖 AI Agent集成:支持本地ComfyUI服务器集成、Comfy Cloud API调用和MCP Server对接,可以与Claude、Cursor等AI智能体打通
    • ⚡ 高性能推理:原生支持最新开源SOTA模型,API节点可接入闭源模型,推理速度快,内存占用低

    ComfyUI 节点工作流界面


    📦 典型使用场景

    🎨 场景1:AI绘画创作

    设计师和插画师用ComfyUI构建个性化图像生成流水线 —— 从线稿上色、风格迁移到批量生成设计稿,一个工作流搞定全流程。相比传统绘图软件,效率提升数倍。

    🎬 场景2:AI视频与3D制作

    内容创作者利用ComfyUI的视频生成节点和3D模型节点,制作短视频素材、产品展示动画、虚拟场景等。节点式编排让复杂的多步视频处理变得可追溯、可复现。

    🏭 场景3:企业级批量生产

    电商团队用ComfyUI搭建商品图自动化工作流:批量换背景、批量生成不同风格的Banner、批量处理产品照片。工作流可保存复用,一次搭建持续受益。


    ⭐ 推荐理由

    说真的,ComfyUI的门槛确实比WebUI高一些,但这个”高”是值得的。

    我最喜欢的是它的可复现性 —— 每个工作流都是一个完整的生成配方,别人拿到你的工作流文件就能一模一样地复现结果。这在团队协作中太重要了,不用再”调参数调到手抽筋还说不清楚用了什么设置”。

    而且ComfyUI的社区生态非常活跃,Comfy Hub上各种神仙工作流应有尽有。不会搭工作流?直接下载别人的改一改就行。这就好比从”自己写代码”进化到了”调用开源库”。

    最近ComfyUI还加入了AI Agent集成能力,支持MCP协议,这意味着你可以让Claude、GPT这些AI智能体直接帮你设计和调整工作流。AI时代的生产力工具,ComfyUI算是把”可控性”做到了极致。


    📧 下载地址

  • 被Apple封杀4个月,Replit终于重回iOS

    Vibe coding平台Replit的CEO Amjad Masad上周五在X上宣布:他们终于跟Apple”把事情谈妥了”,4个月来第一次推送了iOS更新。

    这事儿得从今年3月说起。当时Apple悄咪咪地封掉了Replit和其他一堆vibe coding应用的App Store更新权限,条件是必须改点东西——比如把AI生成的应用预览功能搬到浏览器里,不能在App内直接显示。

    Apple的要求很明确:vibe coding类应用必须调整功能,可能包括将生成的应用预览移至浏览器。这一限制并非只针对Replit,而是适用于所有同类应用。

    什么叫”vibe coding”?

    简单说就是用自然语言描述你想做啥,AI帮你生成代码,你几乎不用手写。Replit是这波浪潮里的明星产品,用户量涨得飞快。但Apple的App Store审核指南对这类”自动生成内容”的应用一直很谨慎,担心用户体验失控或者产生 inappropriate content。

    According to reports from The Information and TechCrunch, Apple’s restrictions weren’t just about Replit — they’d blocked updates for multiple vibe coding apps until they made the required changes.


    Replit做对了什么?

    Masad没细说具体改了啥,但按照Apple的要求,大概率是把”AI生成应用的实时预览”这个功能从App内移到了浏览器。用户在Replit App里写提示词,生成的代码和预览得通过Safari或者别的浏览器查看。

    这个妥协方案其实也说得通。App Store里塞个能自动生成完整Web应用的预览器,审核团队确实会担心:万一生成的页面有违规内容咋办?放到浏览器里,责任边界就清晰多了。

    这对vibe coding行业意味着什么?

    • Apple的态度很明确:你可以做vibe coding工具,但生成内容的展示方式得符合App Store规则
    • 其他vibe coding平台(比如Cursor、v0.dev的移动端)估计也在经历类似谈判
    • 对用户来说,体验会稍微麻烦点(要跳浏览器),但至少还能用
    • Replit能重新上架,说明Apple并不是要封杀这个品类,而是要”规范”它

    Masad在X上说”worked things out with Apple”的时候,语气挺轻松的。但背后这4个月的拉锯战,估计没那么愉快。好在结果不错——Replit的用户终于能在iOS上收到更新了。

  • ArXiv出手了:用AI写论文不检查?直接封号1年

    预印本平台ArXiv最近干了件大事。他们更新了 submission 政策——以后要是你的论文里出现”AI完全代写且没人工核对”的实锤证据,作者会被封号整整一年。

    这事儿说起来挺有意思。ArXiv那帮管理者(领导核心是计算机科学版块主席Thomas Dietterich)直接在X和Bluesky上发了公告,核心意思很明确:如果发现论文里有”无可争议的证据”证明作者根本没检查LLM生成的结果,那整篇论文的内容都不可信。

    “如果发现论文存在无可争议的证据表明作者未检查LLM生成的结果,这意味着我们无法信任论文中的任何内容。”——Thomas Dietterich,ArXiv计算机科学版块主席

    什么样的证据算”无可争议”?

    Dietterich说得很具体:幻觉参考文献(hallucinated references)、论文里残留的LLM提示词或对话记录,这些都属于”铁证”。一旦被发现,处罚很直接——1年内禁止向ArXiv提交任何论文,1年后再想投稿,必须先在有同行评审的知名期刊/会议上发表过才能解锁资格。

    Business research concept
    学术研究需要真实贡献,而非AI生成的”垃圾论文” (图片来源:Getty Images)

    注意啊,这政策不是”完全禁止用LLM”。人家说得清清楚楚:你可以用AI辅助写作,但必须对生成的内容”负全部责任”,不管内容是咋生成的。如果你直接从LLM复制粘贴了”不合适的语言、抄袭内容、偏见内容、错误、失误、不正确的参考文献或误导性内容”——那都是你的责任。

    执行方式:一次出局

    Dietterich跟404 Media说,这是”一次出局”(one-strike)规则。不过执行前得走流程:版主先标记问题,然后版块主席确认证据,最后才处罚。作者要是不服,也可以申诉。


    为啥现在管这么严?

    最近有同行评审研究发现,生物医学研究领域伪造引用的情况在飙升,大概率跟LLM的使用有关。其实不止科学家,好多人都被AI生成的假参考文献坑过。

    ArXiv这两年一直在跟”AI垃圾论文”斗智斗勇。之前就已经要求首次投稿的作者必须找个”有信誉的作者”背书,现在又出了这个1年封号的政策。再加上ArXiv刚从康奈尔大学独立出来变成非营利组织,筹钱能力更强了,估计后续还会有更多手段来对付AI slop。

    • 政策并非完全禁止LLM,而是要求作者对内容负责
    • “铁证”包括幻觉参考文献、残留的LLM对话记录等
    • 处罚:1年封号 + 后续投稿需先通过同行评审
    • 执行流程:版主标记 → 版块主席确认 → 处罚(可申诉)
  • Anthropic企业客户数逆袭OpenAI,Ramp数据揭示AI市场变天

    Ramp数据说了什么

    金融科技公司Ramp发布了最新AI指数,样本覆盖超过50000家使用Ramp的企业。结果有点出人意料:34.4%的参与公司正在付费使用Anthropic的产品,比例高于所有其他AI厂商;OpenAI的这一数字是32.3%。这是Anthropic第一次在这个统计里登顶。

    Ramp的经济学家Ara Kharazian解读说,Anthropic在金融、科技和专业服务这些高技术含量的行业里已经跑在前面。OpenAI倒是在更广的企业群体里还保持着领先,但差距正在缩小——而且缩小的速度比很多人预期的快。

    过去一年是Anthropic增长最猛的阶段之一。2025年5月的时候,只有9%的企业愿意为它付费,随后一年内这个比例往上窜了26个百分点。同一时期OpenAI的份额反而小幅下滑了1%。

    不止Ramp一家这么说

    这个结果不是孤例。OpenRouter的排行榜里,OpenAI最后一次在Anthropic前面还是2025年12月的事。从那以后,风向就开始变了。

    当然Ramp的数据有局限性——它只统计用Ramp的企业,不能代表整个市场。但五万家公司的样本量,参考价值还是有的。而且全市场采用AI产品的企业比例这一年增长了9%,说明饼在变大,但Anthropic抢到的份额更猛。

    Anthropic做对了什么

    Kharazian在他博客里说,他对Anthropic这个优势能不能长期保持持谨慎态度。但他也承认,这一年的增长已经证明Anthropic的路子走对了。

    策略说起来不复杂:先从技术型用户切入,把这群人的需求摸透、产品做到位,然后再借着Cowork这类工具往更广的用户群扩展。比起一上来就铺天盖地打广告,这种打法在To B市场反而更扎实——客户一旦用顺手了,切换成本不低。

    • 金融、科技、专业服务等高技术行业率先采用Anthropic
    • 产品执行力到位,技术型用户口碑传播效应明显
    • Cowork等协作工具降低扩展门槛,从专业用户向通用场景渗透

    OpenAI那边呢

    OpenAI并不是输了。它的用户基数更大、覆盖面更广,在很多人眼里ChatGPT仍然是AI的代名词。但企业采购决策越来越理性,不只是看名气,更看谁家模型在自己的业务场景里表现更好、价格更合理、API更稳定。

    Anthropic的Claude在这些维度上过去一年进步很快,尤其在长上下文处理、指令遵循和安全性上,很多企业用户给出了不亚于甚至超过GPT系列的评价。加上Anthropic在定价上比OpenAI更激进一些,企业客户用脚投票不难理解。


  • Google I/O 2026本周开幕,但真正值钱的不是Gemini 4.0

    模型版本只是开胃菜

    按约3到4个月一轮的节奏算,2月刚发布Gemini 3.1 Pro,这次I/O更可能看到Gemini 3.2或3.5。Gemini 4.0不是没可能,只是概率没那么高。对投资者来说,模型叫什么名字不重要,重要的是Gemini能不能进更多核心服务,比如Gmail、Maps,还有Genie 3、Gemma 4这些周边生态能不能跟上。

    Google还可能更新Gemini Health、Android XR智能眼镜,把旅行场景塞进Google Canvas。这些产品要是能拧成一个统一入口,Gemini就不再是聊天或者生成工具,而是变成操作层——这个定位比模型版本号值钱多了。

    过去两年,Google陆续推出Gemini 1.0 Pro、1.5 Pro、2.0 Flash、2.5 Pro、3 Pro和3.1 Pro。截至2026年一季度末,Google产品套件订阅用户达到3.5亿。

    AI搜索的算盘

    搜索依然是Google估值的核心。这次I/O最值得盯的是AI-O、AI-M和Gemini搜索体验怎么融合,还有Chrome在这个框架里站什么位置。Google管理层在一季度业绩会上提到,来自这些新入口的更长、更复杂查询,提供了更多基于意图的数据——这句话直接关系广告价值。

    传统上约20%的查询具备商业属性。如果AI搜索能让更多查询变成可识别、可匹配、可投放的商业意图,搜索广告的天花板就会往上走。对广告主来说,问题不在于AI功能是否先进,而在于同样CPA下能不能带来更多转化。

    一季度Google查询量创历史新高。2026年4月,Google全球搜索份额90.0%,环比增加10个基点。Chrome全球份额68.0%,环比增加130个基点。这些入口如果继续扩大,AI搜索的商业化基础会更稳。

    Gemini发布节奏相关配图
    Gemini模型迭代节奏(图源:网络)

    广告变现才是重头戏

    如果Google I/O回答”AI能力到哪里”,5月21日的Google Marketing Live就回答”AI怎么赚钱”。目前AI驱动的广告活动已经占搜索广告支出的30%以上,覆盖了AI Max、P-Max、Demand Generation等工具。

    AI Max将是GML上最关键的观察点。这个工具在2026年4月结束beta测试,计划在9月完全取代Dynamic Search Ads。早期结果显示,AI Max完整功能组合带来14%更多转化;通过更宽的搜索词匹配,在相近CPA下带来7%更多转化。

    • AI Max for Shopping、Search Campaigns for Travel等垂直优化工具正在推进
    • Ads Advisor提供代理式辅助,Smart Bidding Exploration在搜索活动中带来约27%更多转化
    • Campaign Total Budgets减少约66%的手动预算调整

    代理式购物瞄准交易闭环

    Google的购物业务正在从商品发现入口,向更深的交易链路延伸。UCP、Direct Offers、Agentic Checkout,以及Google Shopping和Chrome中的代理式购物体验,将是I/O和GML共同的观察点。这个变化不是简单增加购物按钮,而是减少从搜索、比较、选择到结账之间的摩擦。

    Google近期把合作伙伴扩展到若干大型电商公司,还有Meta、Microsoft、Stripe,之后又加入Klarna和Affirm。支付、分期、结账和广告投放如果被串联起来,Google Shopping的商业角色会更重。Chrome在全球68%的份额(美国50%)如果嵌入代理式购物和个性化推荐,Google将在搜索之外获得新的商业入口。

    云业务正在改写估值逻辑

    Alphabet过去的估值核心是搜索广告,但Google Cloud正在成为更重要的变量。一季度Google Cloud收入200.28亿美元,同比增长63.4%;backlog达到4623亿美元,环比接近翻倍,同比增长400.3%。同期token消耗环比增长60%。

    Google Cloud收入有望从2025年的587.05亿美元增至2026年的945.29亿美元,再到2027年的1465.21亿美元和2028年的2095.25亿美元。云业务在总收入中的占比预计从2025年的14.6%,升至2026年的19.5%,并在2028年达到30.6%。

    利润率同样在改善。Google Cloud 2025年经营利润率23.7%,2026年预计升至33.8%。这意味着云业务不再只是高增长板块,而是开始对Alphabet整体利润率形成支撑。I/O上,Gemini Code Assist、Google AI Studio中的”vibe coding”工具,以及TPU销售策略也值得关注。


  • YouTube把AI深伪检测工具开放给所有成年用户了

    YouTube把AI深伪检测工具开放给所有成年用户了

    YouTube这周把一个酝酿了挺久的功能正式推给了所有18岁以上的用户——”相似度检测”(likeness detection)。简单说就是,你给自己的人脸扫个描,YouTube就会帮你在平台上盯着,有没有人用AI换了你的脸做深伪内容。一旦匹配上了,平台会通知你,你可以选择要求删除那条内容。

    AI深伪检测示意图
    YouTube的AI深伪检测功能示意图 (图源:Cath Virginia / The Verge, Getty Images)

    这个功能之前已经分批推过几轮了——最早是给内容创作者用,后来扩展到政府官员、政客、记者,再后来是好莱坞的演艺人员。这次开放给所有成年人,意义不太一样:普通用户也能持续监控平台上有没有人冒用自己的脸了。

    YouTube过去说过,实际收到删除申请的数量”非常少”。但深伪技术的门槛越来越低,这条防线迟早得交给每个人自己手里。

    删除申请怎么审?

    YouTube按照自己的隐私政策来审核删除请求,主要看几个维度:内容是不是看起来很真实、有没有标注是AI生成的、能不能明确识别出某个人。当然也有例外——恶搞、讽刺类的内容不在删除范围内。目前这个工具只覆盖人脸相似度,声音这类其他特征还管不到。

    用户随时可以退出这个计划,YouTube会删除之前扫描留存的数据。


    为什么这事重要?

    深伪内容过去大多瞄准名人、政客这类公众人物,但普通人对数字分身技术的担忧也是真实存在的。有几个案例挺触目惊心:有青少年被同学用AI换了脸做成不当图片,还有三个青少年起诉xAI,说Grok给他们生成了儿童性虐待材料。

    YouTube在创作者论坛里低调宣布了这个消息,发言人Jack Malon说,只要年满18岁、有YouTube账号就能用,不要求你必须是”创作者”。不管是发了十年视频的老up主,还是刚注册的新用户,保护级别是一样的。

    这个功能能不能真正遏制深伪内容的蔓延,现在下判断还为时过早。但它至少给了普通用户一个工具,在AI生成内容越来越逼真的今天,这可能是平台能做的第一步。

  • OpenAI给ChatGPT加了个人理财功能,银行账号都能连

    OpenAI给ChatGPT加了个人理财功能,银行账号都能连

    OpenAI这周五在美国悄悄上线了一个新功能,让ChatGPT Pro订阅用户可以把自己的银行账户接进来,然后直接跟ChatGPT聊理财。这事说来也挺自然——毕竟现在每个月有超过2亿人在用ChatGPT问各种财务问题,OpenAI不过是顺水推舟,把这件事做得更专业一点。

    ChatGPT个人理财功能界面
    OpenAI官方发布的ChatGPT个人理财功能演示图

    背后的技术对接是跟Plaid合作的——这家公司专门做金融数据连接,支持超过12000家金融机构,包括Schwab、Fidelity、Chase、Robinhood、American Express、Capital One这些大家耳熟能详的名字。连上之后,ChatGPT会给你生成一个仪表盘,投资组合表现、花了多少钱、订阅了哪些服务、 upcoming要付的账单,一目了然。

    OpenAI一个月前刚收购了个人理财创业公司Hiro的团队,这家公司之前拿过Ribbit、General Catalyst这些顶级VC的钱。现在看来,这步棋下得挺准。

    怎么用?

    用法很简单。在侧边栏找到”Finances”点”Get started”,或者直接在对话里打字”@Finances, connect my accounts”,ChatGPT就会领着你走完Plaid的授权流程。OpenAI说接下来还会支持Intuit,到时候就能分析卖了一只股票对税务有什么影响、或者算算办某张信用卡批下来的概率有多大。

    想问什么问题都行,比如”我感觉最近花得有点多,是不是哪里变了?”或者”帮我做个计划,五年之内在我这个城市买上房”。GPT-5.5的推理能力比之前强了不少,处理这种需要结合上下文的财务问题比以前靠谱。


    隐私和数据怎么处理?

    OpenAI说断开某个账户的连接之后,同步过来的数据会在30天之内从ChatGPT里删掉。用户也可以随时去设置页面对话框里手动删除某段”财务记忆”。

    这件事其实反映了一个更大的趋势:通用的聊天机器人虽然什么都能聊,但一旦涉及到健康、财务、个人生活这些对数据敏感的话题,用户还是希望有个专门优化的产品。Anthropic之前也出了健康相关的工具,Perplexity这个月早些时候用自家的Computer agent做了一个金融研究产品。大家都看到了这个方向。

    目前这个功能只向美国的ChatGPT Pro用户开放,网页版和iOS都能用。OpenAI说会根据这批用户的反馈继续改进,之后再推给Plus用户。至于免费用户什么时候能用上,暂时还没有消息。