标签： AI

谷歌这次把AI科学家搞出来了，7个智能体自己跑实验，还登了Nature

谷歌DeepMind最近搞了个大动作，直接把AI科研助手的水平拉到了《Nature》正刊的级别——他们推出的Co-Scientist系统，现在已经能自主完成从提假设到验证的全科研流程，而且在肝纤维化、衰老这些之前啃不动的生命科学领域，已经拿出了实打实的成果。

谷歌DeepMind Co-Scientist系统架构图（来源：新浪财经）

Co-Scientist的核心是基于Gemini大模型的7大智能体体系，模拟完整科学研究循环（提出假设→质疑修正→迭代完善）。

7大智能体怎么分工？

这7个智能体各有分工，合起来就是一个不用休息的科研团队：生成代理负责基于已有文献提初步假说；邻近性代理给这些假说分类，避免漏了潜在的研究路径；反思代理相当于虚拟同行评审，专门挑假设的错误；排名代理让假说两两比拼，筛选出最有前景的方向；进化代理对排名靠前的假说迭代优化；元评审代理汇总结果，生成完整研究方案给人类科学家审阅；监督代理是总指挥，拆解大目标为具体任务，协调所有智能体并行工作。

为了保证质量，系统还借鉴了AlphaGo的博弈逻辑，让假说之间“打擂台”，把大部分算力投入假设验证环节——反复核对假设和现有文献、数据的一致性，确保假设有依据、逻辑通顺、能实验验证。另外还能调用ChEMBL、UniProt这些专业数据库，以及AlphaFold等第三方AI工具，吸收多维度的知识。

已经在哪些领域出了成果？

目前这个系统优先在生命科学领域落地，已经搞出了不少突破：肝纤维化治疗方向，筛选出的老药新用候选药物，在实验室里能抑制91%的纤维化相关反应，效果比传统方案好得多；渐冻症（ALS）研究，整合了几十年的领域文献，提出了全新的RNA疗法思路，现在已经在推动跨实验室联合攻关；细胞衰老逆转研究，精准锁定了关键基因靶点，把原本需要数月的数据处理工作压缩到了数天完成。

其他方向也有进展：肝病机制研究，解析出了不同药物疗效差异的核心原因，结论经实验100%验证；新发传染病研究，能快速锁定致病关键氨基酸，把原本需要数年的实验周期缩短到数周；衰老生物学研究，提出了应激反应的全新假设，已经经过多家实验室独立验证。

AI for Science成巨头新战场

谷歌这次突破之后，AI for Science赛道已经成了科技巨头和初创公司都在抢的香饽饽：2025年12月FutureHouse推出AI科学家Robin，首轮融资就拿了7000万美元；英伟达和礼来宣布未来5年共同投资10亿美元，共建全球首个AI药物共创实验室；科学智能公司Lila Sciences刚完成3.5亿美元A轮融资，估值就超过了13亿美元。

以前搞科研靠天才的灵感和运气，现在有了这套系统，相当于给每个科学家配了一个24小时不睡觉、能读完所有文献、还能自己设计实验的助手——科研效率的革命，真的要来了。

📎 原文来源：登顶Nature！谷歌最强AI科学家问世，7大智能体独立做研究，攻克肝纤维化、衰老难题！

2026年5月21日
英伟达又破纪录了，但真正吓人的是那430亿美元的隐形投资组合

英伟达又破纪录了，但真正吓人的是那430亿美元的”隐形投资组合”

英伟达周三盘后公布了截至2026年4月26日的季度财报，数字一如既往地好看：总营收816亿美元，较上一季度增长20%；数据中心营收752亿美元，又创了新高。

黄仁勋在电话会议上那股子得意劲儿不难想象。据财报披露，英伟达所有主要客户——所有超大规模云厂商、所有云服务提供商、所有主要大模型开发商——都已经采用并部署了Blackwell架构。这句话的潜台词是：眼下这场AI军备竞赛，英伟达是唯一的军火商。

本季度营收816亿美元（环比+20%），数据中心营收752亿美元创历史新高。英伟达授权800亿美元股票回购计划，预计下季度营收910亿美元。

受此业绩提振，英伟达授权了800亿美元的股票回购计划。有钱就是任性。

430亿美元是怎么花出去的？

但如果你仔细翻这份财报，有一个数字比营收纪录更值得玩味：英伟达持有私营企业的股权规模，在这三个月里几乎翻了一番。

季度初，这个数字还是220亿美元。季度末，变成了430亿美元。

430亿美元是什么概念？大约相当于两个英特尔的市值（截至发稿时英特尔市值约210亿美元）。而这些还只是英伟达持有的非上市企业股权，不包括它对康宁（Corning）、IREN等上市公司的投资，也不包括今年2月承诺向OpenAI投资的300亿美元（这笔交易的结构尚未披露）。

英伟达CEO黄仁勋在GTC大会 | 图源：TechCrunch / Getty Images

推动这笔430亿美元的主要因素是本季度内累计185亿美元的收购支出。作为对比，上一季度英伟达在收购私营企业股权上的支出仅为6.49亿美元。从6.49亿到185亿，这个增幅大概是28倍。

黄仁勋的”产能阳谋”

黄仁勋在电话会议上特别提到了与Anthropic的产能建设计划。他说：”我们今年和明年为Anthropic上线的产能规模将非常可观，此前我们对Anthropic的覆盖基本为零。”

这句话其实透露了两个信息：第一，Anthropic正在大规模扩张算力基础设施；第二，英伟达是这次扩张的核心受益者。考虑到Anthropic每月需向xAI支付12.5亿美元算力的消息刚过去没几天，AI公司对算力的渴求已经到了不惜代价的地步。

当然，财报也不是全是好消息。英伟达预测下一季度营收为910亿美元，环比增长12%。这个数字虽然仍然亮眼，但增速较本季度的20%已经明显放缓。

中国市场：名义上能卖，实际上卖不了

中国市场的故事则基本处于停滞状态。CFO Colette Kress表示，虽然H200芯片已获得美国出口许可，但”我们尚未产生任何相关收入，也不确定是否会被允许出口到中国”。

换句话说，名义上可以卖，实际上卖不了。这块市场基本上已经算是丢了。

回过头看那430亿美元的持股组合，英伟达正在做的事情其实很聪明：它不只是卖铲子的，它还在用赚来的钱买下那些挖金矿的公司的股份。AI产业链的每一个环节，从芯片到模型到应用，英伟达都在用投资的方式深度绑定。

这种模式一旦跑通，英伟达就不再是单纯的硬件供应商，而是整个AI生态系统的股东。到那时候，即便有竞争对手的芯片赶上来，英伟达手里握着的那些股权也足够让它继续坐在牌桌的主位上。

📎 原文来源：Nvidia posts another record quarter, reveals $43 billion of holdings in startups | TechCrunch

2026年5月21日
OpenAI说这次真的解决了80年数学难题，上次的尴尬还记得吗？

OpenAI说这次真的解决了80年数学难题，上次的尴尬还记得吗？

如果你最近刷到OpenAI又双叒叕宣布”解决数学难题”的消息，第一反应可能是：又来？

确实，这话听着耳熟。7个月前，OpenAI时任副总裁Kevin Weil在X上发帖，信誓旦旦地说GPT-5找到了10个此前未解的埃尔德什问题解决方案，另外11个也取得了进展。结果呢？被打脸了。那些”新解决方案”早就存在于现有文献中，压根不是什么新发现。

那次翻车之后，Yann LeCun、谷歌DeepMind CEO Demis Hassabis等竞争对手轮番嘲讽，Weil也只能默默删帖。可以说OpenAI在数学证明这件事上，信用已经透支得差不多了。

这次被解决的是保罗·埃尔德什（Paul Erdős）1946年首次提出的几何猜想。近80年来，数学家们普遍认为这个问题的最优解大致类似正方形网格。OpenAI的新推理模型把这种想法推翻了，发现了一种全新的构造族，性能更优。

但这次，OpenAI好像真的没吹牛。

这次OpenAI在X上发帖宣布消息时，还附上了数学家Noga Alon、Melanie Wood和Thomas Bloom的支持性评论。Bloom是Erdos Problems网站的维护者，就在7个月前，他还在社交媒体上称Weil的那条官宣是”戏剧性的不实描述”。这次他站出来背书，分量不轻。

不是专门训练出来的”数学天才”

OpenAI的说法是：这是”AI首次自主解决数学领域核心的著名开放问题”。而且特别强调，这个证明是由新的通用推理模型产出的，不是专门为了解这个数学题、甚至不是专门针对这个问题设计的系统。

换句话说，这是个意外之喜，不是定向训练的结果。这意味着模型的推理能力已经强到可以在没有专门训练的情况下，自主产出原创的数学证明。

这件事为什么重要？OpenAI的解释是：这意味着AI系统现在更有能力处理长难推理链，并且能以研究人员此前未探索过的方式跨领域连接想法。这对生物学、物理学、工程和医学都有重要意义。

埃尔德什问题相关数学示意图 | 图源：TechCrunch

数学界会买账吗？

Thomas Bloom的声明说得很漂亮：”AI正在帮助我们更全面地探索几个世纪以来我们搭建的数学殿堂。还有哪些未被发现的美妙事物正等待被发掘？”

话是这么说，但数学界向来对计算机辅助证明持保留态度。1998年四色定理的证明用到了计算机穷举，至今仍有数学家觉得不够”优雅”。这次OpenAI给出的证明，能不能被数学界真正接受，恐怕还得看同行评审的结果。

不过有一点倒是挺有意思的：上次的尴尬过去才7个月，OpenAI就端出了一个有数学家背书的成果。是模型能力真的跃升了，还是这次学乖了、先找好背书再开发布会？

答案可能要等一等才能知道。但至少这次，OpenAI没有让自己再次成为笑话。

📎 原文来源：OpenAI claims it solved an 80-year-old math problem — for real this time | TechCrunch

2026年5月21日
Supabase：103k Stars！开源Firebase替代品，AI应用的数据底座首选
Supabase – 开源 Firebase 替代品

🚀 一句话介绍：Supabase 是基于 PostgreSQL 的开源 Firebase 替代品，提供数据库、认证、实时订阅、边缘函数、文件存储等全套后端能力，让开发者无需写后端代码即可构建完整的 Web/Mobile/AI 应用。

⚙️
安装要求与过程
环境要求

Docker Desktop（本地开发必备）

Node.js 18+（前端集成）

Git（获取源码）

支持 macOS / Windows(WSL2) / Linux
🚀 快速安装（3种方式）

# 方式一：使用官方 CLI（推荐） npm install -g supabase supabase init supabase start # 方式二：Docker 直接运行 docker run -p 8000:8000 supabase/supabase # 方式三：直接使用云端（零安装）注册即用的托管平台 → https://supabase.com/dashboard

✅ 本地启动后访问 http://localhost:54323 即可打开控制台
⭐
核心功能

🗄️

托管 PostgreSQL 数据库

完整 PostgreSQL 实例，支持扩展、备份、SSL 加密，直接提供生产级数据库服务。

🔐

身份认证与授权

基于 JWT 的完整认证体系，支持邮箱/密码、魔法链接、OAuth（GitHub/Google/Apple 等）。

⚡

自动生成 API

零配置自动生成 REST API（PostgREST）和 GraphQL API，实时订阅数据库变更（Realtime）。

🤖

AI 向量存储

内置 pgvector 扩展，支持向量嵌入存储与语义搜索，是构建 RAG 应用和 AI 知识库的理想数据底座。

⚡

边缘函数

基于 Deno 的全球边缘函数，支持 TypeScript，超低延迟执行后端逻辑，就近部署。

💡
典型使用场景

场景一：AI 应用的数据底座

利用 Supabase 内置的 pgvector 扩展存储向量嵌入，配合 Supabase 客户端库实现语义搜索。适合构建 RAG 应用、AI 聊天机器人的知识库、文档问答系统等。与 OpenAI / Anthropic API 无缝集成，是 AI 全栈开发的首选后端。

场景二：SaaS 应用快速启动

一个命令 supabase init 即可获得全套后端：数据库 + 认证 + API + 文件存储 + 实时订阅。不需要雇用后端团队，不需要配置服务器，专注于前端业务逻辑即可。大量 indie hackers 和创业团队用它在一周内完成 MVP 上线。

场景三：实时协作应用

Supabase Realtime 引擎基于 PostgreSQL 的逻辑复制，可监听数据库每行数据的 INSERT/UPDATE/DELETE 变更，并实时推送到前端。适合构建多人协作工具（如 Notion 类应用）、实时聊天、在线白板等场景。

❤️
推荐理由

作为一名 AI 开发者，我选择 Supabase 最核心的原因是：它把 PostgreSQL 的强大数据能力与 AI 应用的需求完美结合了。内置的 pgvector 扩展让我不需要额外维护一套向量数据库，所有用户数据、向量嵌入、文件存储都在一个平台搞定。

对比使用传统的”PostgreSQL + 独立向量数据库 + 独立 Auth 服务”的组合，Supabase 帮我省掉了大量运维成本。开源 + 自托管的特性也意味着数据完全掌握在自己手里，对于有数据安全要求的企业场景尤为重要。

目前 Supabase 在 GitHub 上已经突破 10 万 Stars，社区活跃度极高，几乎每周都有新功能和改进上线。如果你正在做 AI 应用、SaaS 产品或者任何需要后端的项目，强烈建议试试！

🔗
下载地址

🌐

官方网站

supabase.com

⭐

GitHub 仓库

103k+ Stars

📖

官方文档

supabase.com/docs

🚀

示例项目

官方 Examples

💡 小贴士

Supabase 提供 免费套餐（500MB 数据库、1GB 文件存储、50K 月活用户），个人项目完全够用！付费方案从 $25/月起。
2026年5月21日
2026年5月AI圈的三件大事：新模型扎堆发布，Agent终于落地，然后电力不够用了

2026 年的 5 月，AI 圈的热闹程度一点不比 4 月差。模型发布、Agent 落地、电力危机——这三件事同时发生在同一个月份里，凑在一起看，你会发现这个行业的节奏已经完全不是「按年迭代」了，而是按月、甚至按周在翻篇。

模型发布潮，这次不一样

OpenAI 的 GPT-5.5 系列还在持续推出变体，方向很明确：不再追求一个万能模型打天下，而是按场景拆分成不同专业版本。GPT-5.5-Cyber 专门盯网络安全场景，能做漏洞挖掘和攻防推理——这种垂直专业化的做法，说明厂商已经意识到通用模型在企业场景里的性价比瓶颈。

Claude Mythos 更神秘一些，目前只有约 50 家合作伙伴能拿到受限预览资格。传闻在推理、编码、Agent 执行和漏洞发现这几个能力上都有重大突破。稀缺性反而让它热度更高——但说实话，这种「限量内测」的打法，到底是为了控制风险还是营销手法，外人很难判断。

DeepSeek V4 的出现，让「低成本逼近前沿性能」这件事从例外变成了趋势。开源权重模型的竞争力，已经到了闭源厂商不能忽视的程度。

DeepSeek V4 预览版已经上线，正式版预计近期发布。它的核心卖点是以极低的推理成本提供接近前沿水平的性能。对于高用量场景来说，这个性价比优势是真实的，不是噱头。Meta 的 Avocado 则推迟到了 5-6 月发布，说明即使头部厂商也会在研发落地的时间表上翻车——厂商给的路线图，看看就好，别当真。

Agent 落地，这次是真的

Gartner 有个预测：到 2026 年底，40% 的企业应用会嵌入 AI Agent。2025 年这个比例还不到 5%。这个跨度不是渐进式的，是跳跃式的。Deloitte 直接把 2026 年定义为「Agentic AI 的转折点」，IBM 等厂商也在推「超级智能体」和「多智能体编排」的概念。

开发者社区的话题也变了。半年前大家还在争论「Agent 到底有没有用」，现在已经在讨论用 CrewAI 还是 LangGraph，MCP 协议怎么接入，Agent 的可靠性和成本怎么管控。这种讨论重心的转移，比任何报告都能说明问题——Agent 已经脱离概念验证阶段，进入实际落地周期了。

但落地难度的提升也是真实的。Agent 从「生成回复」到「执行工作流」，意味着出错的影响范围完全不同。以前 AI 说错一句话，代价是一段不那么准确的摘要；现在 Agent 自动执行了一系列操作，哪怕其中一个环节出错，后果可能是删错数据、发错邮件、或者把订单派到错误的地址。

电力危机，AI的下一个瓶颈

最后一个话题有点沉重，但躲不过。AI 不是普通软件，它是高能耗的计算范式。一个 AI 密集型查询的耗电量，远高于一次传统网页搜索。大规模数据中心园区需要几百兆瓦的电力容量支撑——这个数字不是比喻，是实际的基础设施需求。

Gartner 又有一个预测：到 2027 年，电力短缺将限制约 40% 的 AI 数据中心落地。美国目前约有一半的规划数据中心项目，因为电力基础设施和相关组件短缺被推迟或取消。钱能解决的问题都不是最难的问题，但变电站建设、变压器供应、电网接入审批——这些是工业协调问题，推进速度远慢于模型发布的节奏。

AI 发展的下一个瓶颈不是芯片，不是模型，也不是资本——是现实世界的落地能力。

说回太浩湖那个例子。4.9 万居民和 AI 数据中心抢电，这不是一个孤立事件，而是一个缩影。AI 扩张的基础设施成本，最终会以某种方式转嫁到社会层面。这个问题在 2026 年还只是苗头，但再过两年，它会变成政策制定者必须正面回应的问题。

📎 原文来源：AI in May 2026: Model Wave, Agentic Shift and Power Crisis Reshaping the Industry

2026年5月21日
OpenAI把Codex搬进手机了，随时能写代码这件事到底靠不靠谱

前几天刷到一条消息，OpenAI 把 Codex 搬到手机上了。没错，就是那个在桌面端帮程序员写代码的 AI 工具，现在你可以在手机上直接生成、审阅、甚至部署代码片段。对远程团队来说这是个挺实在的更新，毕竟不是所有人时刻坐在电脑前，等不及的时候掏出手机就能改两行代码，这种灵活性以前真的没有。

手机写代码，真不是噱头

Codex 移动端预览版直接集成在 ChatGPT 应用里，不需要额外安装。最实用的一点是它支持远程 SSH 连接，意味着你真的可以在手机上完成一段代码的审阅、修改、然后推到服务器。当然有人担心移动环境下的代码安全，这个顾虑是合理的，毕竟手机网络比办公网络复杂得多，敏感项目的操作还是得悠着点。

OpenAI 这次把这个功能做成预览版，说明他们自己也很清楚——移动端编码这件事，体验和安全性都还需要迭代。

有意思的是，几乎同一时间，Anthropic 的 Claude Code 产品负责人 Cat Wu 也在公开场合聊了类似的话题。她说 Claude Code 的开发思路是不预设宏大的整体规划，更看重迭代反馈而非僵化的路线图。这话听起来有点虚，但仔细想确实有道理——AI 编码工具这种东西，你很难在发布前就把所有使用场景规划清楚，用户怎么用、在哪卡住，这些反馈比任何前期调研都值钱。

AI 正在改变软件开发的节奏（来源：coaio.com）

企业AI架构，风向变了

还有一个信号值得注意。行业分析里开始出现一种声音：企业级 AI 系统开发，正在从「LLM 优先」转向「代码优先」。什么意思呢？过去一年多，大家一上来就想把大模型能力塞进系统，先把聊天界面搭起来，再想业务逻辑。现在有人意识到，这样做虽然出活快，但开发者对系统的深度理解会被掩盖， Demo 做得很炫，真正跑起来全是坑。

新思路强调「代码优先」，说白了就是先把业务逻辑、数据结构、系统边界想清楚，再用 AI 工具去加速开发，而不是反过来。这个转变背后其实是教训——太多项目在规模化部署的时候翻车，技术债务堆到还不起。

其他值得关注的动静

AMD 这边也有动作，宣布给 RDNA2 和 RDNA3 架构的老显卡提供硬件加速的 FSR 4 超分辨率支持。通俗点说，就是你手里那张几年前的显卡，可以通过驱动更新获得更好的游戏画质，相当于变相延长了硬件寿命。对不想频繁换卡的用户来说，这算是个小惊喜，虽然性能上肯定还是有损耗的。

医疗 AI 这边出了个警示案例。加拿大安大略省审计发现，医生用的 AI 笔记工具频繁虚构治疗建议和处方内容。这个问题其实不意外，大模型的「幻觉」在医疗场景下后果完全不同。行业里已经开始呼吁建立更严格的 AI 输出验证机制，但这件事真正做起来，比喊口号难多了。

最后说个有点荒诞的事——美国太浩湖地区 4.9 万居民，正在和内华达州的一个 AI 数据中心抢电。能源供应商优先给数据中心供电，居民用电反而被挤压。AI 的扩张代价，最终是普通人在承担，这个问题只会越来越突出。

📎 原文来源：Breakthrough AI Tools and Tech Shifts: OpenAI Codex Mobile, Claude Insights, and 2026 Innovations

2026年5月21日
2026年5月AI圈大事件：GPT-5.5来了，Kimi融资20亿美元，人形机器人走向工厂
2026年5月AI圈大事件：GPT-5.5来了，Kimi融资20亿美元，人形机器人走向工厂

5月的AI圈，信息量爆炸。OpenAI发布了GPT-5.5，国产AI企业Kimi即将完成20亿美元融资，人形机器人展览会在杭州开幕，苹果因为AI功能虚假宣传赔了2.5亿美元……如果你没时间每天刷新闻，这篇文章帮你一次性梳理完这个月的所有大事。

GPT-5.5来了，这次主打”不胡说”

OpenAI在5月发布了GPT-5.5 Instant，最核心的升级是”可靠性”。之前的版本在专业领域容易”一本正经地胡说八道”，5.5在医疗、法律、金融等高风险场景的准确性有了质的飞跃，幻觉率大幅降低。

这个方向其实很明确：企业用户要的不是模型”能聊”，而是”说对话”。ChatGPT的使用量继续攀升，企业场景渗透加速，GPT-5.5算是踩在了正确的节奏上。

AI行业的竞争，正在从”谁的模型更聪明”转向”谁的模型更可靠”。GPT-5.5的发布，是这个转向的一个标志性节点。

Kimi即将完成20亿美元融资

月之暗面旗下的Kimi即将完成一笔20亿美元的新融资，投后估值大幅攀升。这是2026年国产AI领域最大的一笔融资之一。

Kimi这波势头很猛，长文本处理能力一直是它的招牌，现在融资到位，接下来在多模态、Agent方向的投入估计会加大。国产大模型这场仗，远没到终局。

人形机器人走向工厂，不只是演示了

5月14日至16日，HRTE 2026杭州国际人形机器人展览会举办，主题是”人形机器人赋能新型工业化”。多款新型人形机器人亮相，工业应用场景加速落地，产业链上下游企业集中展示。

人形机器人正在从”实验室”走向”工厂”。2026年可能是人形机器人产业化的元年，这个判断现在看来越来越扎实了。

苹果赔了2.5亿美元，AI虚假宣传的警钟

苹果公司同意支付2.5亿美元，和解关于AI功能虚假宣传的诉讼。这件事给整个行业敲了一个警钟：AI产品的宣传必须实事求是，过度承诺的后果是很真实的。

监管层面也在发力。AI生成内容的合规与安全成为新的关注重点，Deepfake（深度伪造）技术被滥用的案例持续增多。行业趋势正在从”炫模型”转向”拼安全”，安全性、隐私保护和系统集成能力正在成为新的竞争维度。

其他值得关注的动态
- Google把Gemini塞进了Gboard：AI不再是一个需要单独打开的App，而是融入了你打字的每一个瞬间。AI正在从”工具”变成”基础设施”。
- 微软收购Fintool AI：将其全面整合进Office全家桶，Excel、Word、PowerPoint将获得更强大的AI金融分析能力。
- 英伟达高层到访中国：带动A股AI板块集体上涨，汉得信息等AI全产业链概念股表现活跃。
- 国内AI社区类产品市场爆发：市场规模同比增长182%，多款涵盖教育、办公、创作、社交的产品进入测试阶段。
回顾这个月的AI圈，几个关键趋势非常清晰：模型能力持续提升，资本持续涌入，产业加速落地，安全成为新焦点。对于普通人来说，最重要的信息是：AI正在从概念走向实用。不管你是学生、职场人还是创业者，现在都是开始学习和使用AI的最佳时机。

📎 原文来源：GPT-5.5来了！2026年5月AI圈发生了什么？一文看完本月大事件
2026年5月21日
谷歌I/O 2026大会落幕：Gemini 3.5 Flash速度飙升4倍，AI智能体全面入侵安卓生态
谷歌I/O 2026大会落幕：Gemini 3.5 Flash速度飙升4倍，AI智能体全面入侵安卓生态

谷歌I/O 2026开发者大会现场 (图源：腾讯新闻)

北京时间5月20日凌晨1点，谷歌I/O 2026开发者大会在美国加州山景城开幕。这场发布会持续了两天（5月19-20日），核心主题只有一个：把AI智能体塞进你生活的每一个角落。

先说最硬核的模型更新。Gemini 3.5 Flash来了，官方数据是输出Token速度约其他前沿模型的4倍。这个数字背后意味着什么？你让AI帮你写代码、跑长任务，别的模型还在”思考”，它已经把结果甩到你脸上了。谷歌这次明显是冲着AI Agent和编程工具场景去的，速度就是生产力。

Gemini 3.5 Flash的定位很清晰：不是最聪明的模型，但是最快的。对于那些需要反复调用、长工作流的场景，速度比绝对智能更重要。

视频生成模型Gemini Omni亮相

DeepMind首席执行官德米斯·哈萨比斯亲自登台，发布了基于世界模型能力的视频生成模型Gemini Omni。这个模型支持多模态输入生成视频，还能用自然语言对话式编辑——你想改角色、换背景、调场景，直接说就行。

首款面向用户的模型Gemini Omni Flash将于2026年夏季推出。视频生成这块，谷歌终于开始认真跟Sora、Runway们掰手腕了。

Android XR智能眼镜，手机可以不用掏了

Android XR智能眼镜演示 (图源：腾讯新闻)

谷歌联合Gentle Monster、Warby Parker、三星推出了Android XR智能眼镜，分两类：一类是纯语音眼镜（没有显示屏），另一类可以把信息投射到视野前方。

现场演示很有意思：佩戴者要让Gemini帮自己点一杯咖啡，导航到咖啡馆、打开DoorDash、准备好常点的氮气冷萃订单，全程没掏手机，最后只需点头确认下单。Gentle Monster和Warby Parker联名款是语音版，2026年秋季上市，支持配对iOS和Android设备。

Gemini Spark：关机的手机也能跑AI助手

这个产品有点颠覆认知。Gemini Spark是运行在Google Cloud虚拟机上的全天候个人AI助手，即使你的设备关机了，它还能在后台继续工作。它能自动汇总信息、追踪活动参与情况、发送跟进邮件、生成表格和宣传册。

本周向受信任测试人员开放，下周向美国Google AI Ultra订阅用户开放。谷歌还新推出了100美元/月的低价Ultra套餐，2026年夏季将支持在Chrome浏览器中运行。

其他值得关注的更新
- Ask YouTube：在YouTube网站加入聊天机器人交互界面，支持自然语言搜索直接跳转至视频对应片段，2026年夏季将在美国扩大推广
- Docs Live：支持通过语音与Google Docs对话，无需输入提示词，可自动从Google Drive、Gmail提取信息辅助文档创建和编辑
- Antigravity 2.0：面向AI Agent时代的编程平台，直接对标Anthropic Claude Code、OpenAI Codex
- Universal Cart：AI智能体驱动的通用购物车，可跨场景添加商品，追踪优惠、监控价格变动、显示价格历史
- SynthID扩展：可识别图片是否为AI生成，用户可直接询问图片的生成属性
整体来看，谷歌这次的方向非常明确：AI不再是一个需要单独打开的App，而是融入你打字的每一个瞬间、导航的每一个路口、购物的每一个决策。智能体时代，谷歌想做那个无处不在的底色。

📎 原文来源：一文看懂2026年谷歌I/O大会：Gemini 3.5 Flash、视频模型…
2026年5月21日
拒绝2000万美元收购，这个AI工具创始人要把开源项目做成百年公司

NanoClaw的创始人Gavriel Cohen这几天成了AI圈的热门人物。他和兄弟Lazer Cohen一起做的开源项目NanoClaw，在短时间内从沙发上的代码变成了一家融资1200万美元的公司——而且他们还拒绝了一份约2000万美元的收购要约。

NanoClaw 联合创始人 Gavriel Cohen（左）和 Lazer Cohen（右）（来源：NanoClaw）

六周内从代码到投资条款清单

Gavriel说，从写下第一行代码，到拿到投资条款清单，全程不到六周。这段时间发生了什么？项目在开源社区迅速走红，AI研究者Andrej Karpathy在推特上夸了NanoClaw，然后新加坡外交部长在Facebook上发帖称NanoClaw是他的”第二大脑”，这篇帖子迅速走红。

热度一来，投资人的消息就蜂拥而至。Gavriel估计有50多位创始人、科技行业高管发私信表示想要投资。Hugging Face的CEO Clem Delangue也是其中之一。

NanoClaw最初是作为OpenClaw的安全替代方案被开发出来的。和OpenClaw直接在电脑上运行、可以访问所有服务和凭证不同，NanoClaw在容器中以沙箱模式运行。这种方式正逐渐成为部署更安全的OpenClaw类产品的通用解决方案。

为什么要拒绝2000万美元

就在他们考虑一份六位数美元的报价时，他们遇到了一位创始人朋友，对方给出了一个关键见解：开源项目的价值会随着社区规模扩大呈指数级增长。这些用户不仅可以帮助贡献代码，让项目快速成熟，还能探索出各种使用场景、做实践验证。

这位朋友告诉他们，如果他们相信NanoClaw能成为这类项目，就必须关停其他业务，全身心投入NanoClaw。Gavriel后来说：”他说得对。”

在他们关停此前的业务、全身心投入NanoClaw后不久，就出现了病毒式传播的帖子，新公司也和Docker、Vercel达成了合作。

在那份六位数报价的约两周后，他们又收到了另一份收购要约，报价约2000万美元，还包含让他们留任继续运营公司的职位。兄弟俩再次拒绝了这份要约。

从开源项目到企业服务

NanoCo现在已经开始签约企业客户，这个想法来自社区。产品的早期用户都是具备技术能力的人，其中很多是大型科技公司的管理层。这些用户自己部署好NanoClaw实例后，不断有同事找他们帮忙做同样的部署。

Cohen解释道，这些人不想变成NanoClaw的IT运维人员，但NanoCo愿意做这件事。所以公司现在提供部署服务，也就是现在常说的”前向部署工程师”服务，帮助企业向员工推广NanoClaw AI智能体，并提供持续支持。

虽然NanoCo拒绝透露早期企业客户的具体身份，但兄弟俩表示，亚马逊、Gap、谷歌、Meta、SentinelOne、埃森哲等公司的管理层都在使用NanoClaw。

从一个沙发上的开源项目，到拒绝2000万美元收购、融资1200万美元，再到服务亚马逊和Meta这样的巨头——NanoClaw的故事，是这一波AI智能体浪潮中，开源创业者如何把技术社区变成商业价值的生动案例。

📎 原文来源：NanoClaw creator turns down $20M buyout offer, raises $12M seed instead — TechCrunch

2026年5月21日
Stability AI放大招：新音频模型能生成6分钟专业音乐，还把模型权重开源了

Stability AI这几天扔出了一个重磅消息——Stability Audio 3.0系列音频模型正式发布。如果你对这家公司的名字有点印象，没错，它就是Stable Diffusion的开发公司。

四款模型，两种策略

这次一口气发布了四款模型，参数规模从4.59亿到27亿不等。小模型可以在设备上直接跑，生成最长2分钟的音频内容。中型和大型模型更猛，能生成6分20秒的完整音乐作品，而且还能保持稳定的音乐结构和旋律基调。

生成时长是2024年发布的Stable Audio 2.0的两倍以上。要知道，2024年他们发布的Stable Audio Open只能生成最长47秒的音乐，这次算是一次大跨步的升级。

最有意思的是他们对不同模型的开放策略。两款小型模型（音效模型459M、音乐模型459M）和中型模型（1.4B）都以开放权重的形式发布，任何用户都可以免费使用、修改。但大型模型（2.7B）就没这么大方了，只通过API和付费自托管服务开放使用，而且年营收超过100万美元的企业还需要获取企业级授权才能用。

版权是生死线

训练数据是这套模型的一大卖点。Stability AI表示，本次最新发布的音频模型系列完全基于已获得授权的数据训练。这一点很重要，因为AI音乐生成这个赛道，版权问题一直是悬在头顶的达摩克利斯之剑。

去年Stability AI已经和华纳音乐集团、环球音乐集团达成合作，共同开发模型和音乐创作工具。和其他竞争对手比起来，这在版权合规性上确实更有底气。毕竟Suno和Udio相关的版权诉讼已经证明，数据授权以及与音乐厂牌的合作，将是这类服务长期生存的关键因素。

Stability Audio 3.0 四款模型参数对比（来源：Stability AI）

专业音乐人赛道开打

目前谷歌、ElevenLabs等多家公司都在推出音乐生成相关的模型和工具，赛道越来越挤。Stability AI这边也在为专业音乐人开发一套全新的产品，前Universal Audio和Fender首席数字官Ethan Kaplan已经加入公司，将负责Stability的专业音乐业务。

这个人事任命挺有意思。Ethan Kaplan在音乐硬件和软件领域都有很深的根基，他去Stability AI，说明这家公司不只是想做个”能生成音乐的AI玩具”，而是真的想往专业音乐制作流程里扎根。

最近不少AI公司都在通过聘请音乐行业高管来提升自身行业资质。今年早些时候Suno聘请前Merlin CEO Jeremy Sirota担任首席商务官，ElevenLabs也聘请独立音乐发行商Kobalt的Derek Cournoyer担任音乐业务战略负责人。

看起来，AI音乐生成赛道正在从”谁能生成好听的音乐”转向”谁能搞定版权、搞定音乐行业”。技术只是入场券，版权和行业资源才是长期竞争力的核心。

普通创作者能用上吗

对于普通创作者来说，Stability Audio 3.0的开源小模型是个好消息——你不需要花一分钱，就能在自己的设备上生成最长2分钟的音乐和音效。但如果你想用最好的大模型，或者你是年营收超过100万美元的企业，那就得按商业授权来了。

这套模型的发布，让AI音乐生成赛道的竞争从”谁的模型能生成更长的音乐”升级到了”谁的版权合规性更强、谁更懂专业音乐人的需求”。Stability AI这一步棋，下得挺聪明。

📎 原文来源：Stability AI releases a new audio model that can create six-minute songs — TechCrunch

2026年5月21日

标签： AI

7大智能体怎么分工？

已经在哪些领域出了成果？

AI for Science成巨头新战场

英伟达又破纪录了，但真正吓人的是那430亿美元的”隐形投资组合”

430亿美元是怎么花出去的？

黄仁勋的”产能阳谋”

中国市场：名义上能卖，实际上卖不了

OpenAI说这次真的解决了80年数学难题，上次的尴尬还记得吗？

不是专门训练出来的”数学天才”

数学界会买账吗？

⚙️ 安装要求与过程

环境要求

🚀 快速安装（3种方式）

⭐ 核心功能

托管 PostgreSQL 数据库

身份认证与授权

自动生成 API

AI 向量存储

边缘函数

💡 典型使用场景

场景一：AI 应用的数据底座

场景二：SaaS 应用快速启动

场景三：实时协作应用

❤️ 推荐理由

🔗 下载地址

模型发布潮，这次不一样

Agent 落地，这次是真的

电力危机，AI的下一个瓶颈

手机写代码，真不是噱头

企业AI架构，风向变了

其他值得关注的动静

2026年5月AI圈大事件：GPT-5.5来了，Kimi融资20亿美元，人形机器人走向工厂

GPT-5.5来了，这次主打”不胡说”

Kimi即将完成20亿美元融资

人形机器人走向工厂，不只是演示了

苹果赔了2.5亿美元，AI虚假宣传的警钟

其他值得关注的动态

谷歌I/O 2026大会落幕：Gemini 3.5 Flash速度飙升4倍，AI智能体全面入侵安卓生态

视频生成模型Gemini Omni亮相

Android XR智能眼镜，手机可以不用掏了

Gemini Spark：关机的手机也能跑AI助手

其他值得关注的更新

六周内从代码到投资条款清单

为什么要拒绝2000万美元

从开源项目到企业服务

四款模型，两种策略

版权是生死线

专业音乐人赛道开打

普通创作者能用上吗

⚙️
安装要求与过程

⭐
核心功能

💡
典型使用场景

❤️
推荐理由

🔗
下载地址