博客

马斯克告OpenAI案进入庭审：陪审团到底要判什么？
加州九名陪审员现在正在审议这个案子——Elon Musk把OpenAI的联合创始人及微软告上了法庭。

Musk到底在争什么？

诉讼核心围绕三个主张：
- 违反慈善信托：Musk方认为他的捐款有明确附加条件——只能用于推进OpenAI的非营利使命，让AI惠及全人类，而不该被拿去支持商业化产品
- 不当得利：联合创始人Altman、Greg Brockman等人通过OpenAI营利子公司套现，Musk认为这本质上是用他的捐款在养肥这些人
- 协助违约：微软明知Musk的捐款有条件，还帮OpenAI偏离了原始使命
Musk方把2023年微软那笔100亿美元投资视为”关键转折点”——正是这笔交易，让OpenAI的营利性质彻底压过了慈善属性。

OpenAI怎么反驳？

OpenAI的辩护律师阵容相当豪华，从慈善信托的成立依据到诉讼时效，一路反击。核心论点有三个：
- 诉讼时效：一名审计会计师作证说，Musk的所有捐款在2021年8月5日之前就已全部用完。这意味着即便存在违约，也早已超过了法律追诉期限
- 无限制条件：OpenAI要求所有证人描述Musk捐款的”具体限制”，结果无论是他的财务顾问Jared Birchall、首席幕僚Sam Teller还是特别顾问Shivon Zilis，没有一个人能说出来
- 道德污点：Musk本人在担任OpenAI主席期间就已在策划自己的竞品AI，还挖走了OpenAI的研究人员去特斯拉做AI——OpenAI律师直接说：”Musk在2018年就放弃OpenAI了。”
OpenAI的律师指出，营利子公司已为非营利基金会积累了近2000亿美元的股权价值。Altman本人甚至在法庭上辩护：”ChatGPT免费向公众开放，这本身就是把AI好处分享给全世界的体现。”

微软的角色：帮凶还是旁观者？

Musk方把矛头指向了微软——指出微软与OpenAI的协议中包含一个条款，赋予了微软对OpenAI重大决策的否决权。Musk方认为，这说明微软深度介入了OpenAI的战略转向，是”协助违约”的直接证据。

微软方面的证人则坚持，公司高管在尽职调查中从未被告知Musk捐款附带任何条件，微软也从没动用过这个否决权。CEO纳德拉在Altman被炒又火线回归的”那几天”里确实出手帮了忙，但这究竟是”帮忙稳定局面”还是”干预非营利治理”，陪审团还得自己判断。

这案子最终会怎么收场？

如果Musk胜诉，理论上OpenAI可能被迫转型为纯公益机构，不再有营利子公司。但这背后的执行复杂度极高——下周法官还要单独开一系列听证会，讨论如果陪审团判Musk赢，具体的救济措施是什么。

不管结果如何，这场官司早已超越了个人恩怨。它在拷问一个问题：全球最顶尖的AI实验室，到底是”造福人类的安全网”，还是”穿着慈善外衣的商业机器”？这个问题的重要性，大概比陪审团的任何裁决都要深远得多。

图：Elon Musk vs. OpenAI — 庭审现场

📎 原文来源：What the jury will actually decide in the case of Elon Musk vs. Sam Altman — TechCrunch, Tim Fernholz, 2026-05-14
2026年5月17日
Runway不服硅谷规则：押注世界模型，要和Google正面对决

Runway这家AI视频生成创业公司，没有典型的硅谷血统。没有斯坦福创始人，没有前Google员工，没有九位数的种子轮让你有资本无视收入。它的三个创始人——两个来自智利，一个来自希腊——在纽约大学Tisch艺术学院相遇，然后在纽约建立了这家公司。

但Runway也可能是当今最重要的AI公司之一，这取决于你问谁。不是因为它已经构建了什么，而是因为它正在试图构建什么。

“每个主要AI实验室都在押注语言。Runway押注他们都错了。”

不同的赌注

过去几年，AI行业基本在一个前提上运作：智能存在于语言中。OpenAI的ChatGPT和Anthropic的Claude这样的大语言模型反映了这个赌注。

Runway和其他一些竞争对手正在做一个不同的赌注。它的创始人相信，下一代AI智能不会从文本中构建，而是从视频和世界模型中学习这个世界如何运作，而不仅仅是人类如何描述它。这个区别听起来很学术，但它的影响可不学术。

Runway联合创始人兼联席CEO Anastasis Germanidis说，直接在来自世界的观察数据上训练模型是AI的下一个前沿。他认为，最先到达那里的公司，不会是那些完善了语言的公司。

Runway三位创始人（左起：Cristóbal Valenzuela, Anastasis Germanidis, Alejandro Matamala Ortiz）

从视频生成到世界模型

Germanidis告诉TechCrunch：”我们基本上受限于自己对现实的理解。语言模型是在整个互联网上训练的，在留言板、社交媒体、教科书上——提炼现有的人类知识。但要超越这一点，我们需要利用更少偏见的数据。”

成立于2018年的Runway以其视频生成模型（包括最新的Gen-4.5）和让人们将文本提示转换为可编辑的电影内容的AI工具建立了声誉。

今天，Runway的技术为电影制作人和广告公司提供生产工作流程，并且该公司已与主要媒体公司如Lionsgate和AMC Networks签署了协议。它的工具甚至被用于像《Everything Everywhere All At Once》这样的电影中。

商业表现与估值

Runway现在的估值为53亿美元，并且根据其一位创始人的说法，在2026年第二季度增加了4000万美元的年度经常性收入（ARR）。

如果Runway关于视频生成是通往世界模型的道路的赌注成功，其结果将从好莱坞影响到药物发现和机器人技术。如果不成功，Runway就有可能被资金远为雄厚的竞争对手——其中Google首当其冲——超越。

世界模型：科学的数字基础设施

在过去的六个月里，这家创业公司已经将其计划付诸行动，扩展到视频生成之外，在12月推出了它的第一个世界模型（AI系统可以足够好地模拟环境来预测它们将如何行为），并计划在今年推出另一个。

Germanidis将世界模型视为科学基础设施。你在单个模型上训练的感觉数据和观察越多，你就越接近宇宙的工作数字孪生——一个你可以比任何实验室都快地运行实验的模型。

“如果我们能建立一个比人类科学家更好的科学家，我们就能加速我们理解宇宙和解决问题的方式。” —— Anastasis Germanidis

竞争加剧：不缺对手

Runway在追求将物理感知的视频模型转化为世界模型方面并不孤单，近期应用案例包括交互式娱乐、游戏和机器人训练。初创公司Luma和World Labs也处于类似的轨迹上，Google也将其Genie世界模型指向同一方向。

所有人都在追求某种版本的同一件事：解决人类最困难问题的AI。这与Runway的原始产品相去甚远，但这是技术中突现能力和创始人倾向于跟随它引导的结果。

Runway能否将其视频主导地位带入世界模型还远未确定，竞争也不会等待。Runway是首批开发AI视频生成的公司之一，但世界模型是一场不同的竞赛，有资金雄厚且备受尊敬的竞争对手。Google、前Meta首席科学家Yann LeCun、AI的”教母”Fei-Fei Li，以及越来越多的初创公司都在追逐同一个目标。

资源和挑战

AI技能基准公司Workera的CEO兼斯坦福大学讲师Kian Katanforoosh指出，还没有人证明通过世界模型在视频智能和通用推理之间的跳跃，但这并不意味着不可能。他说，如果Runway想将其世界模型赌注变为现实，就需要继续收集资源——其中计算能力首当其冲。

Runway与CoreWeave和Nvidia有协议，但不愿确认是否有专用的集群访问权限——这是训练前沿模型所需的有保障的大规模计算。

“没有集群，你要如何建立基础模型？我不认为任何人能做到。” —— Kian Katanforoosh

Runway迄今为止已筹集了8.6亿美元，包括2月份来自AMD Ventures和Nvidia等战略合作伙伴的3.15亿美元轮融资。根据PitchBook的数据，这与其最直接的竞争对手Luma AI和World Labs大致一致，后两者分别筹集了9亿美元和12.9亿美元。

但Runway也要面对现任者如OpenAI（根据CEO Sam Altman的说法已筹集约1750亿美元）和科技巨头Google的竞争，其母公司的价值为4.86万亿美元。Google是Runway的最大威胁。该公司的Veo模型直接与Runway的视频生成业务竞争，而其Genie世界模型针对的是Runway正在冲刺的同一长期领域。

Runway的优势：不按常理出牌

Katanforoosh并没有把Runway排除在外。他指向AI音频初创公司ElevenLabs，该公司在自己的基准测试上超越了OpenAI和Google，尽管缺乏任一公司的资源和血统。他认为，Runway可以遵循类似的剧本。

这种比较并没有失去Runway创始人的注意。Valenzuela说，创业公司缺乏湾区的”标准化”给了他们优势。他认为，他们不仅有思想的多样性，而且没有硅谷的关系，他们必须更加精明，缺乏许多同行可以获得的战争基金，这些基金本可以使他们不必在早期生成收入。

根据Runway首席运营官Michelle Kwon的说法，尽管计算需求随着规模增加，公司并不急于筹集更多资金。

早期投资者、Compound的管理合伙人Michael Dempsey告诉TechCrunch：”他们的背景让他们能够早早出发，比不更频繁地正确，并建立一种移动得非常快的文化。”

对Valenzuela来说，这种文化始于他首先如何看待世界。他会把任何空闲时间——作为联席CEO和新父亲，时间不多——用来读书，包括智利诗人Nicanor Parra，他描述为Pablo Neruda的对立面：不那么正式，不那么学术，持有一种认为诗歌属于人民而不是规则的观点。

“规则只是他们发明的规则。这是我们在Runway做事的一个驱动力。他们说硅谷在这里，初创公司就在这里。为什么？那些只是编造的规则。把它们都擦掉，重新开始。” —— Cristóbal Valenzuela

📎 原文来源：Runway started by helping filmmakers — now it wants to beat Google at AI（TechCrunch, Rebecca Bellan, 2026-05-15）

2026年5月17日
AI淘金热的两极分化：1万人财富自由，其他人却在焦虑什么？

旧金山的AI淘金热听起来很美好，但现实却是一幅两极分化的景象。 Menlo Ventures的合伙人Deedy Das在社交媒体上发了一篇长文，描述的现象让人咋舌——他说旧金山现在”相当 frenetic（疯狂）”，他见过的最严重的结果分化正在发生。

Das用了一个” envelope背面计算法”来估算：大概有1万人——包括OpenAI、Anthropic、xAI、Nvidia、Meta TBD这些公司的员工和创始人——已经积累了远超2000万美元的”退休财富”。而其他人呢？即便年薪不到50万美元（这在科技圈已经很高了），他们担心自己一辈子都达不到那个水平。

“你可以工作一辈子，拿着高薪，但永远到不了那个境界。”这就是大多数科技工作者的现状。

裁员潮和技能焦虑

更糟糕的是，裁员正在全面展开。许多软件工程师觉得他们一辈子的技能突然不再有用，这对职业道路的选择造成了混乱，也让人对工作的未来感到深深的萎靡。

当然，Das的帖子在X上引发了一些白眼。企业家Deva Hazarika认为，帖子里提到的大多数人已经”非常幸运”，完全可以选择开心一点。还有用户指出，在当前这个周期里，同样的技术既是彩票彩票，又在吞噬你的退路——这”相当新颖，也有点恶心”。

一个时代的缩影

这大概是AI时代最讽刺的写照：创造财富的技术，同时也在摧毁那些没赶上车的人的职业安全感。1万人的财富自由，换来的是无数科技工作者的存在焦虑。

有意思的是，这种分化在科技行业内部都这么严重，更不用说整个社会了。AI淘金热创造的不是共同富裕，而是前所未有的财富鸿沟。

📎 原文来源：The haves and have nots of the AI gold rush（TechCrunch, Anthony Ha, 2026-05-16）

2026年5月17日
ComfyUI：106k Stars！节点式AI创作引擎，让图像生成像搭积木一样可控
用Stable Diffusion画图的人，大概分两派：一派用WebUI，图个省事；另一派用ComfyUI，追求极致控制力。

我一开始也是WebUI用户，觉得节点式界面太复杂了。直到有一次我想做一个多步重绘+放大+色调调整的流水线，发现WebUI根本搞不定这种复杂工作流，才被硬推到了ComfyUI这边。

结果上手之后回不去了 —— 这种节点式的工作流编排方式，一旦理解了逻辑，创作效率简直是质的飞跃。

🚀 项目简介

ComfyUI 是目前最强大的开源节点式生成式AI引擎，拥有 106k+ GitHub Stars。它通过可视化节点画布，让用户自由组合各类AI模型和操作，实现高度可定制、可控制的内容生成。不仅支持图像生成，还能处理视频、3D、音频等多种模态。

⚙️ 安装要求和过程
📋 环境要求
- 操作系统：Windows / macOS / Linux
- Python 3.13（推荐）或 3.12
- 显卡：NVIDIA（CUDA 13.0）/ AMD / Intel Arc / Apple Silicon（M系列）
- PyTorch 2.4+
- 浏览器：Chrome 143+（推荐）
🚀 快速安装

方式一：便携版（Windows，最简单）
```
# 下载便携版压缩包，解压即用
# 内置 Python 3.13 + PyTorch CUDA 13.0
# 运行 run_nvidia_gpu.bat 即可启动
```
方式二：手动安装（全平台）
```
git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI
pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu130
pip install -r requirements.txt
python main.py
```
方式三：桌面版（Windows/macOS）
```
# 从 comfy.org 下载桌面安装包
# 支持一键安装，适合新手
```
💡 核心功能
- 🧩 节点式工作流：通过可视化节点画布自由编排AI生成流程，每个节点负责一个独立操作（加载模型、生成图像、调整尺寸等），灵活度和可控性远超传统UI
- 🎨 多模态支持：不仅支持图像生成（文生图、图生图、局部重绘、画面外扩），还能处理视频生成、3D模型创建、音频合成等多种创作场景
- 🔌 丰富的自定义节点生态：Comfy Hub 上有全球创作者分享的数千个工作流和节点插件，一键导入即可使用，持续扩展能力边界
- 🤖 AI Agent集成：支持本地ComfyUI服务器集成、Comfy Cloud API调用和MCP Server对接，可以与Claude、Cursor等AI智能体打通
- ⚡ 高性能推理：原生支持最新开源SOTA模型，API节点可接入闭源模型，推理速度快，内存占用低
📦 典型使用场景

🎨 场景1：AI绘画创作

设计师和插画师用ComfyUI构建个性化图像生成流水线 —— 从线稿上色、风格迁移到批量生成设计稿，一个工作流搞定全流程。相比传统绘图软件，效率提升数倍。

🎬 场景2：AI视频与3D制作

内容创作者利用ComfyUI的视频生成节点和3D模型节点，制作短视频素材、产品展示动画、虚拟场景等。节点式编排让复杂的多步视频处理变得可追溯、可复现。

🏭 场景3：企业级批量生产

电商团队用ComfyUI搭建商品图自动化工作流：批量换背景、批量生成不同风格的Banner、批量处理产品照片。工作流可保存复用，一次搭建持续受益。

⭐ 推荐理由

说真的，ComfyUI的门槛确实比WebUI高一些，但这个”高”是值得的。

我最喜欢的是它的可复现性 —— 每个工作流都是一个完整的生成配方，别人拿到你的工作流文件就能一模一样地复现结果。这在团队协作中太重要了，不用再”调参数调到手抽筋还说不清楚用了什么设置”。

而且ComfyUI的社区生态非常活跃，Comfy Hub上各种神仙工作流应有尽有。不会搭工作流？直接下载别人的改一改就行。这就好比从”自己写代码”进化到了”调用开源库”。

最近ComfyUI还加入了AI Agent集成能力，支持MCP协议，这意味着你可以让Claude、GPT这些AI智能体直接帮你设计和调整工作流。AI时代的生产力工具，ComfyUI算是把”可控性”做到了极致。

📧 下载地址
- 🏠 GitHub：https://github.com/comfyanonymous/ComfyUI
- 🌐 官网：https://comfy.org
- 📖 官方文档：https://docs.comfy.org/zh
- 🧩 Comfy Hub：https://comfy.org/workflows
- 💬 Discord：https://discord.gg/ComfyUI
2026年5月17日
被Apple封杀4个月，Replit终于重回iOS
Vibe coding平台Replit的CEO Amjad Masad上周五在X上宣布：他们终于跟Apple”把事情谈妥了”，4个月来第一次推送了iOS更新。

这事儿得从今年3月说起。当时Apple悄咪咪地封掉了Replit和其他一堆vibe coding应用的App Store更新权限，条件是必须改点东西——比如把AI生成的应用预览功能搬到浏览器里，不能在App内直接显示。

Apple的要求很明确：vibe coding类应用必须调整功能，可能包括将生成的应用预览移至浏览器。这一限制并非只针对Replit，而是适用于所有同类应用。

什么叫”vibe coding”？

简单说就是用自然语言描述你想做啥，AI帮你生成代码，你几乎不用手写。Replit是这波浪潮里的明星产品，用户量涨得飞快。但Apple的App Store审核指南对这类”自动生成内容”的应用一直很谨慎，担心用户体验失控或者产生 inappropriate content。

According to reports from The Information and TechCrunch, Apple’s restrictions weren’t just about Replit — they’d blocked updates for multiple vibe coding apps until they made the required changes.

Replit做对了什么？

Masad没细说具体改了啥，但按照Apple的要求，大概率是把”AI生成应用的实时预览”这个功能从App内移到了浏览器。用户在Replit App里写提示词，生成的代码和预览得通过Safari或者别的浏览器查看。

这个妥协方案其实也说得通。App Store里塞个能自动生成完整Web应用的预览器，审核团队确实会担心：万一生成的页面有违规内容咋办？放到浏览器里，责任边界就清晰多了。

这对vibe coding行业意味着什么？
- Apple的态度很明确：你可以做vibe coding工具，但生成内容的展示方式得符合App Store规则
- 其他vibe coding平台（比如Cursor、v0.dev的移动端）估计也在经历类似谈判
- 对用户来说，体验会稍微麻烦点（要跳浏览器），但至少还能用
- Replit能重新上架，说明Apple并不是要封杀这个品类，而是要”规范”它
Masad在X上说”worked things out with Apple”的时候，语气挺轻松的。但背后这4个月的拉锯战，估计没那么愉快。好在结果不错——Replit的用户终于能在iOS上收到更新了。

📎 原文来源：Vibe coding app Replit “worked things out with Apple” | The Verge
2026年5月17日
ArXiv出手了：用AI写论文不检查？直接封号1年
预印本平台ArXiv最近干了件大事。他们更新了 submission 政策——以后要是你的论文里出现”AI完全代写且没人工核对”的实锤证据，作者会被封号整整一年。

这事儿说起来挺有意思。ArXiv那帮管理者（领导核心是计算机科学版块主席Thomas Dietterich）直接在X和Bluesky上发了公告，核心意思很明确：如果发现论文里有”无可争议的证据”证明作者根本没检查LLM生成的结果，那整篇论文的内容都不可信。

“如果发现论文存在无可争议的证据表明作者未检查LLM生成的结果，这意味着我们无法信任论文中的任何内容。”——Thomas Dietterich，ArXiv计算机科学版块主席

什么样的证据算”无可争议”？

Dietterich说得很具体：幻觉参考文献（hallucinated references）、论文里残留的LLM提示词或对话记录，这些都属于”铁证”。一旦被发现，处罚很直接——1年内禁止向ArXiv提交任何论文，1年后再想投稿，必须先在有同行评审的知名期刊/会议上发表过才能解锁资格。

学术研究需要真实贡献，而非AI生成的”垃圾论文” (图片来源：Getty Images)

注意啊，这政策不是”完全禁止用LLM”。人家说得清清楚楚：你可以用AI辅助写作，但必须对生成的内容”负全部责任”，不管内容是咋生成的。如果你直接从LLM复制粘贴了”不合适的语言、抄袭内容、偏见内容、错误、失误、不正确的参考文献或误导性内容”——那都是你的责任。

执行方式：一次出局

Dietterich跟404 Media说，这是”一次出局”（one-strike）规则。不过执行前得走流程：版主先标记问题，然后版块主席确认证据，最后才处罚。作者要是不服，也可以申诉。

为啥现在管这么严？

最近有同行评审研究发现，生物医学研究领域伪造引用的情况在飙升，大概率跟LLM的使用有关。其实不止科学家，好多人都被AI生成的假参考文献坑过。

ArXiv这两年一直在跟”AI垃圾论文”斗智斗勇。之前就已经要求首次投稿的作者必须找个”有信誉的作者”背书，现在又出了这个1年封号的政策。再加上ArXiv刚从康奈尔大学独立出来变成非营利组织，筹钱能力更强了，估计后续还会有更多手段来对付AI slop。
- 政策并非完全禁止LLM，而是要求作者对内容负责
- “铁证”包括幻觉参考文献、残留的LLM对话记录等
- 处罚：1年封号 + 后续投稿需先通过同行评审
- 执行流程：版主标记 → 版块主席确认 → 处罚（可申诉）
📎 原文来源：Research repository ArXiv will ban authors for a year if they let AI do all the work | TechCrunch
2026年5月17日
Anthropic企业客户数逆袭OpenAI，Ramp数据揭示AI市场变天
Ramp数据说了什么

金融科技公司Ramp发布了最新AI指数，样本覆盖超过50000家使用Ramp的企业。结果有点出人意料：34.4%的参与公司正在付费使用Anthropic的产品，比例高于所有其他AI厂商；OpenAI的这一数字是32.3%。这是Anthropic第一次在这个统计里登顶。

Ramp的经济学家Ara Kharazian解读说，Anthropic在金融、科技和专业服务这些高技术含量的行业里已经跑在前面。OpenAI倒是在更广的企业群体里还保持着领先，但差距正在缩小——而且缩小的速度比很多人预期的快。

过去一年是Anthropic增长最猛的阶段之一。2025年5月的时候，只有9%的企业愿意为它付费，随后一年内这个比例往上窜了26个百分点。同一时期OpenAI的份额反而小幅下滑了1%。

不止Ramp一家这么说

这个结果不是孤例。OpenRouter的排行榜里，OpenAI最后一次在Anthropic前面还是2025年12月的事。从那以后，风向就开始变了。

当然Ramp的数据有局限性——它只统计用Ramp的企业，不能代表整个市场。但五万家公司的样本量，参考价值还是有的。而且全市场采用AI产品的企业比例这一年增长了9%，说明饼在变大，但Anthropic抢到的份额更猛。

Anthropic做对了什么

Kharazian在他博客里说，他对Anthropic这个优势能不能长期保持持谨慎态度。但他也承认，这一年的增长已经证明Anthropic的路子走对了。

策略说起来不复杂：先从技术型用户切入，把这群人的需求摸透、产品做到位，然后再借着Cowork这类工具往更广的用户群扩展。比起一上来就铺天盖地打广告，这种打法在To B市场反而更扎实——客户一旦用顺手了，切换成本不低。
- 金融、科技、专业服务等高技术行业率先采用Anthropic
- 产品执行力到位，技术型用户口碑传播效应明显
- Cowork等协作工具降低扩展门槛，从专业用户向通用场景渗透
OpenAI那边呢

OpenAI并不是输了。它的用户基数更大、覆盖面更广，在很多人眼里ChatGPT仍然是AI的代名词。但企业采购决策越来越理性，不只是看名气，更看谁家模型在自己的业务场景里表现更好、价格更合理、API更稳定。

Anthropic的Claude在这些维度上过去一年进步很快，尤其在长上下文处理、指令遵循和安全性上，很多企业用户给出了不亚于甚至超过GPT系列的评价。加上Anthropic在定价上比OpenAI更激进一些，企业客户用脚投票不难理解。

📎 原文来源：34.4% vs 32.3%，数据显示 Anthropic 商业客户数首次反超 OpenAI
2026年5月17日
Google I/O 2026本周开幕，但真正值钱的不是Gemini 4.0
模型版本只是开胃菜

按约3到4个月一轮的节奏算，2月刚发布Gemini 3.1 Pro，这次I/O更可能看到Gemini 3.2或3.5。Gemini 4.0不是没可能，只是概率没那么高。对投资者来说，模型叫什么名字不重要，重要的是Gemini能不能进更多核心服务，比如Gmail、Maps，还有Genie 3、Gemma 4这些周边生态能不能跟上。

Google还可能更新Gemini Health、Android XR智能眼镜，把旅行场景塞进Google Canvas。这些产品要是能拧成一个统一入口，Gemini就不再是聊天或者生成工具，而是变成操作层——这个定位比模型版本号值钱多了。

过去两年，Google陆续推出Gemini 1.0 Pro、1.5 Pro、2.0 Flash、2.5 Pro、3 Pro和3.1 Pro。截至2026年一季度末，Google产品套件订阅用户达到3.5亿。

AI搜索的算盘

搜索依然是Google估值的核心。这次I/O最值得盯的是AI-O、AI-M和Gemini搜索体验怎么融合，还有Chrome在这个框架里站什么位置。Google管理层在一季度业绩会上提到，来自这些新入口的更长、更复杂查询，提供了更多基于意图的数据——这句话直接关系广告价值。

传统上约20%的查询具备商业属性。如果AI搜索能让更多查询变成可识别、可匹配、可投放的商业意图，搜索广告的天花板就会往上走。对广告主来说，问题不在于AI功能是否先进，而在于同样CPA下能不能带来更多转化。

一季度Google查询量创历史新高。2026年4月，Google全球搜索份额90.0%，环比增加10个基点。Chrome全球份额68.0%，环比增加130个基点。这些入口如果继续扩大，AI搜索的商业化基础会更稳。

Gemini模型迭代节奏（图源：网络）

广告变现才是重头戏

如果Google I/O回答”AI能力到哪里”，5月21日的Google Marketing Live就回答”AI怎么赚钱”。目前AI驱动的广告活动已经占搜索广告支出的30%以上，覆盖了AI Max、P-Max、Demand Generation等工具。

AI Max将是GML上最关键的观察点。这个工具在2026年4月结束beta测试，计划在9月完全取代Dynamic Search Ads。早期结果显示，AI Max完整功能组合带来14%更多转化；通过更宽的搜索词匹配，在相近CPA下带来7%更多转化。
- AI Max for Shopping、Search Campaigns for Travel等垂直优化工具正在推进
- Ads Advisor提供代理式辅助，Smart Bidding Exploration在搜索活动中带来约27%更多转化
- Campaign Total Budgets减少约66%的手动预算调整
代理式购物瞄准交易闭环

Google的购物业务正在从商品发现入口，向更深的交易链路延伸。UCP、Direct Offers、Agentic Checkout，以及Google Shopping和Chrome中的代理式购物体验，将是I/O和GML共同的观察点。这个变化不是简单增加购物按钮，而是减少从搜索、比较、选择到结账之间的摩擦。

Google近期把合作伙伴扩展到若干大型电商公司，还有Meta、Microsoft、Stripe，之后又加入Klarna和Affirm。支付、分期、结账和广告投放如果被串联起来，Google Shopping的商业角色会更重。Chrome在全球68%的份额（美国50%）如果嵌入代理式购物和个性化推荐，Google将在搜索之外获得新的商业入口。

云业务正在改写估值逻辑

Alphabet过去的估值核心是搜索广告，但Google Cloud正在成为更重要的变量。一季度Google Cloud收入200.28亿美元，同比增长63.4%；backlog达到4623亿美元，环比接近翻倍，同比增长400.3%。同期token消耗环比增长60%。

Google Cloud收入有望从2025年的587.05亿美元增至2026年的945.29亿美元，再到2027年的1465.21亿美元和2028年的2095.25亿美元。云业务在总收入中的占比预计从2025年的14.6%，升至2026年的19.5%，并在2028年达到30.6%。

利润率同样在改善。Google Cloud 2025年经营利润率23.7%，2026年预计升至33.8%。这意味着云业务不再只是高增长板块，而是开始对Alphabet整体利润率形成支撑。I/O上，Gemini Code Assist、Google AI Studio中的”vibe coding”工具，以及TPU销售策略也值得关注。

📎 原文来源：谷歌I/O大会前瞻：Gemini 4.0要来了？但这不是最重要的
2026年5月17日
YouTube把AI深伪检测工具开放给所有成年用户了

YouTube把AI深伪检测工具开放给所有成年用户了

YouTube这周把一个酝酿了挺久的功能正式推给了所有18岁以上的用户——”相似度检测”（likeness detection）。简单说就是，你给自己的人脸扫个描，YouTube就会帮你在平台上盯着，有没有人用AI换了你的脸做深伪内容。一旦匹配上了，平台会通知你，你可以选择要求删除那条内容。

YouTube的AI深伪检测功能示意图 (图源：Cath Virginia / The Verge, Getty Images)

这个功能之前已经分批推过几轮了——最早是给内容创作者用，后来扩展到政府官员、政客、记者，再后来是好莱坞的演艺人员。这次开放给所有成年人，意义不太一样：普通用户也能持续监控平台上有没有人冒用自己的脸了。

YouTube过去说过，实际收到删除申请的数量”非常少”。但深伪技术的门槛越来越低，这条防线迟早得交给每个人自己手里。

删除申请怎么审？

YouTube按照自己的隐私政策来审核删除请求，主要看几个维度：内容是不是看起来很真实、有没有标注是AI生成的、能不能明确识别出某个人。当然也有例外——恶搞、讽刺类的内容不在删除范围内。目前这个工具只覆盖人脸相似度，声音这类其他特征还管不到。

用户随时可以退出这个计划，YouTube会删除之前扫描留存的数据。

为什么这事重要？

深伪内容过去大多瞄准名人、政客这类公众人物，但普通人对数字分身技术的担忧也是真实存在的。有几个案例挺触目惊心：有青少年被同学用AI换了脸做成不当图片，还有三个青少年起诉xAI，说Grok给他们生成了儿童性虐待材料。

YouTube在创作者论坛里低调宣布了这个消息，发言人Jack Malon说，只要年满18岁、有YouTube账号就能用，不要求你必须是”创作者”。不管是发了十年视频的老up主，还是刚注册的新用户，保护级别是一样的。

这个功能能不能真正遏制深伪内容的蔓延，现在下判断还为时过早。但它至少给了普通用户一个工具，在AI生成内容越来越逼真的今天，这可能是平台能做的第一步。

📎 原文来源：YouTube is expanding its AI deepfake detection tool to all adult users — The Verge

2026年5月17日
OpenAI给ChatGPT加了个人理财功能，银行账号都能连

OpenAI给ChatGPT加了个人理财功能，银行账号都能连

OpenAI这周五在美国悄悄上线了一个新功能，让ChatGPT Pro订阅用户可以把自己的银行账户接进来，然后直接跟ChatGPT聊理财。这事说来也挺自然——毕竟现在每个月有超过2亿人在用ChatGPT问各种财务问题，OpenAI不过是顺水推舟，把这件事做得更专业一点。

OpenAI官方发布的ChatGPT个人理财功能演示图

背后的技术对接是跟Plaid合作的——这家公司专门做金融数据连接，支持超过12000家金融机构，包括Schwab、Fidelity、Chase、Robinhood、American Express、Capital One这些大家耳熟能详的名字。连上之后，ChatGPT会给你生成一个仪表盘，投资组合表现、花了多少钱、订阅了哪些服务、 upcoming要付的账单，一目了然。

OpenAI一个月前刚收购了个人理财创业公司Hiro的团队，这家公司之前拿过Ribbit、General Catalyst这些顶级VC的钱。现在看来，这步棋下得挺准。

怎么用？

用法很简单。在侧边栏找到”Finances”点”Get started”，或者直接在对话里打字”@Finances, connect my accounts”，ChatGPT就会领着你走完Plaid的授权流程。OpenAI说接下来还会支持Intuit，到时候就能分析卖了一只股票对税务有什么影响、或者算算办某张信用卡批下来的概率有多大。

想问什么问题都行，比如”我感觉最近花得有点多，是不是哪里变了？”或者”帮我做个计划，五年之内在我这个城市买上房”。GPT-5.5的推理能力比之前强了不少，处理这种需要结合上下文的财务问题比以前靠谱。

隐私和数据怎么处理？

OpenAI说断开某个账户的连接之后，同步过来的数据会在30天之内从ChatGPT里删掉。用户也可以随时去设置页面对话框里手动删除某段”财务记忆”。

这件事其实反映了一个更大的趋势：通用的聊天机器人虽然什么都能聊，但一旦涉及到健康、财务、个人生活这些对数据敏感的话题，用户还是希望有个专门优化的产品。Anthropic之前也出了健康相关的工具，Perplexity这个月早些时候用自家的Computer agent做了一个金融研究产品。大家都看到了这个方向。

目前这个功能只向美国的ChatGPT Pro用户开放，网页版和iOS都能用。OpenAI说会根据这批用户的反馈继续改进，之后再推给Plus用户。至于免费用户什么时候能用上，暂时还没有消息。

📎 原文来源：OpenAI launches ChatGPT for personal finance, will let you connect bank accounts — TechCrunch

2026年5月17日

博客

Musk到底在争什么？

OpenAI怎么反驳？

微软的角色：帮凶还是旁观者？

这案子最终会怎么收场？

不同的赌注

从视频生成到世界模型

商业表现与估值

世界模型：科学的数字基础设施

竞争加剧：不缺对手

资源和挑战

Runway的优势：不按常理出牌

裁员潮和技能焦虑

一个时代的缩影

🚀 项目简介

⚙️ 安装要求和过程

💡 核心功能

📦 典型使用场景

📧 下载地址

什么叫”vibe coding”？

Replit做对了什么？

这对vibe coding行业意味着什么？

什么样的证据算”无可争议”？

执行方式：一次出局

为啥现在管这么严？

Ramp数据说了什么

不止Ramp一家这么说

Anthropic做对了什么

OpenAI那边呢

模型版本只是开胃菜

AI搜索的算盘

广告变现才是重头戏

代理式购物瞄准交易闭环

云业务正在改写估值逻辑

YouTube把AI深伪检测工具开放给所有成年用户了

删除申请怎么审？

为什么这事重要？

OpenAI给ChatGPT加了个人理财功能，银行账号都能连

怎么用？

隐私和数据怎么处理？