博客

Google I/O 2026明天开幕：Gemini 4.0、XR眼镜、Aluminium OS，谷歌全产品线押注AI

明天（5月19日）上午10点PT，Google I/O 2026将在山景城Shoreline露天剧场拉开帷幕。这是48小时之内就要发生的、本月规模最大的AI盛会。谷歌已经确认主题演讲将涵盖”最新Gemini模型更新”和”智能体编程”——业界普遍解读为Gemini 4.0即将亮相。

Gemini 4.0：直接对标Claude Mythos

谷歌这次把赌注全压在了Gemini 4.0上。根据已泄露的路线图材料和官方暗示，这次升级将在多模态推理、Workspace集成和智能体可靠性三个维度全面进化。如果Gemini 4.0的基准测试成绩能接近甚至追平Claude Mythos Preview的94.6% GPQA得分，谷歌就能在这一周里重新掌握AI叙事的主导权。

有意思的是，谷歌在5月12日的Android Show上已经把平台级更新提前发布了，I/O专门留给模型发布和硬件，这个节奏安排相当聪明——避免自家产品抢流量，把最炸的牌留到主会场。

Android XR眼镜：跟Meta的又一次对决

硬件方面最值得关注的是Android XR眼镜。谷歌已经确认了和三星、Warby Parker、Gentle Monster以及XREAL的硬件合作伙伴关系。一款无显示屏的型号——主打免手持Gemini交互——预计2026年内就能上市。

这明显是冲着Meta的Ray-Ban智能眼镜去的。不同的是，谷歌的方案更彻底：不靠镜片显示，而是把Gemini变成你随时可以对话的”副驾驶”。这个方向到底能不能打，I/O上应该会有更详细的交互演示。

Aluminium OS：ChromeOS的终点，Android桌面的起点

一个相对低调但影响深远的发布是Aluminium OS——谷歌用来替代ChromeOS的Android底层系统。副总裁Sameer Samat已经确认2026年推出。最近泄露的一段16分钟上手视频显示，这个新系统长得像一个放大版Android：底部Dock、虚拟桌面、完整应用窗口，就是没有传统Linux底层的那种笨重感。

如果Aluminium OS真的能在2026年完成ChromeOS的替换，谷歌就拥有了一条从手机（Android）到平板（Android XR）到笔记本（Aluminium）到云（Google Cloud Agentic Toolkit）的完整AI设备链路。苹果还没把这个拼图拼完整。

Google Cloud Agentic Toolkit：企业智能体的定价终于要透明了

对企业用户来说，这次I/O最实在的内容可能是Google Cloud Agentic Toolkit的扩展API和定价细节。之前谷歌在企业智能体这块的商业化一直比较模糊，这次应该会把Workspace集成和Agent部署的企业级收费模式说清楚。

讲真，企业在选智能体平台的时候，定价透明度本身就是竞争力。Anthropic把Claude for Small Business的定价和集成直接做进产品里，谷歌如果还在绕圈子，企业客户会用脚投票的。

战局研判：这一周的胜负手

把时间线拉远一点看，这一周很可能是2026年AI竞争的转折点。Anthropic预计在5月底前关闭$900B估值的融资轮，谷歌在5月19日放大招，Meta的Avocado模型跳票到6月——三家的节奏完全错开了。

如果Gemini 4.0的实测表现真的能打，谷歌就能在Anthropic融资关闭之前把叙事抢回来。如果表现平平，那$900B的估值就会让Anthropic在接下来几个月里持续占据头条。

明天上午10点PT，答案揭晓。

📎 原文来源：AI News Today – May 18, 2026: 13 Biggest Stories

2026年5月18日
五大前沿AI实验室被纳入政府监管：模型发布前要先过这一关

美国商务部下属的AI安全与基础设施局（CAISI）近期悄悄干了一件事——和OpenAI、Anthropic、Google DeepMind、微软、xAI这五家前沿AI实验室全部签署了预部署评估协议。意思是，这些实验室的主流模型在正式发布前，得先过政府这一关。

不是自愿，是强制

这份协议已经最终敲定，具有约束力。覆盖范围是五家实验室计划在美国境内发布的所有主流前沿模型。评估由CAISI主导，核心目标是排查模型的安全风险和合规隐患，防止模型发布后引发监管暴露问题。

具体评估指标和详细内容目前没有公开，但可以参考英国AI安全研究所最新发布的红队测试指南——主要聚焦模型能力边界和潜在滥用风险。这个变化意味着，从模型官宣到API正式对外开放，中间会多一段政府评估的时间窗口。

这标志着美国AI产业正式从”快速行动、打破常规”的野蛮生长阶段，转向受监管的基础设施类产业的监管逻辑——是行业结构性的监管转向。

全球监管协同正在形成

欧盟方面也在跟进。目前欧盟正与Anthropic洽谈Mythos模型的政府访问权限，但尚未达成与美国同等层级的协议。英国AI安全研究所则在Google I/O大会开幕前更新了红队测试指南，表明国际层面在协同关注前沿模型能力监管。

对企业用户来说，这套新流程相当于给前沿模型加了一层官方信任背书——所有模型在发布前都经过政府评估，理论上能降低企业部署后遭遇监管处罚或合规风险的可能性。

对行业意味着什么

短期来看，模型发布节奏会受影响。实验室需要预留政府评估的时间，从完成训练到正式上线的时间窗口会被拉长。对于那些靠”抢先发布”来占据市场注意力的实验室来说，这不是一个好消息。

但换个角度看，政府背书也能成为竞争优势。Anthropic在企业市场的迅猛增长，部分原因就是它的模型被认为”更安全、更合规”。当监管成为行业标准的一部分，跑赢合规反而可能是最好的市场策略。

xAI作为名单里最新的成员，它的加入说明监管网已经覆盖了所有主流玩家，不管创始人埃隆·马斯克和华盛顿的关系如何，规则面前暂时人人平等。

📎 原文来源：AI News Today – May 18, 2026 | Build Fast with AI

2026年5月18日
欧盟AI法案松口了：合规截止日期推迟，中型企业也能喘口气

5月7日，欧盟理事会和欧洲议会谈判代表就AI法案简化方案达成临时协议，这是继2024年AI法案正式生效后，欧盟首次对规则进行大规模”松绑”。距离原定8月2日的高风险AI系统合规截止日只剩三个月，很多企业还没摸清门道，欧盟干脆把期限往后推了。

宽松在哪里

最直观的变化是截止日期——独立类高风险AI系统的合规期限从今年8月推到了2027年12月2日，嵌入医疗设备等受监管产品的高风险AI更是延至2028年8月2日。中间还有4个月的”水印义务宽限期”，今年8月2日前投放市场的生成式AI，可以等到12月2日再完成水印标注合规。

受监管范围也在收窄。工业机械内置的AI系统，如果已经受欧盟《机械法规》覆盖，直接被剔除出AI法案监管范围。医疗设备、玩具、电梯等产品中内置的AI”安全组件”，只需要遵守对应行业的安全法规，不用再重复履行AI法案的义务。

“安全组件”的定义被收窄了——只有当AI功能失效会直接造成健康或安全风险时，才会被认定为高风险AI的”安全组件”。那些只是用来辅助用户、优化性能的AI功能，不会再被自动划为高风险范畴。

中小企业也受惠

原来只有小微企业（SME）才能享受的简化合规政策，现在扩展到了员工不超过750人、年营收不超过1.5亿欧元的中型企业。这意味着一大批成长型AI公司可以享用简化合规指南、更低的罚款标准，以及监管沙盒的准入资格。

还有一个挺有意思的放宽：企业现在可以使用GDPR定义下的特殊类别个人数据（健康信息、生物特征数据、种族、性取向等）来检测和缓解AI模型的偏见，不需要再走此前那套严苛的特殊数据审批流程。

红线还在

放宽不等于放任。”nudifier”类AI应用——也就是用来生成未经同意的亲密内容、儿童性虐待材料的系统——被新增为禁止项，今年12月2日起生效，违反禁止性规定的最高罚款是3500万欧元，或全球年营业额的7%，取高者。

透明度义务（聊天机器人披露、深伪内容水印等）依然在8月2日生效，只是水印部分给了4个月宽限。罚款标准是不超过1500万欧元或全球年营业额的3%。

企业该怎么应对

宽限期多出来的这几个月的用处，是让企业把合规框架搭好，而不是继续拖。欧盟委员会到现在还没发布高风险AI系统的协调标准，等标准出来的时候，留给企业调整的时间可能还是不够。提前把风险分类、数据治理、技术文档这些基础工作做扎实，比临时抱佛脚要靠谱得多。

还有一个现实问题：欧盟数据保护机构已经在AI领域开展GDPR执法了，已经有企业因为违规被罚款、相关AI应用被禁用。AI法案和GDPR是两套并行规则，合规的时候不能只盯着一个看。

📎 原文来源：Latham & Watkins：EU AI Act Update | 欧盟理事会官方新闻稿

2026年5月18日
Google DeepMind启动亚太加速器，用AI守护地球

谷歌DeepMind最近宣布启动亚太区”AI for the Planet”加速器计划，要把AI用到气候变化这类棘手的环境问题上。亚太地区既是全球经济增长引擎，又是气候变化的高脆弱区，这个选择其实很有战略眼光。

从生产力工具到行星级解决方案

DeepMind这个动作，标志着它的定位正在发生根本性转变——不再只是做AlphaFold、大语言模型这类”生产力工具”，而是要把AI变成解决全球性问题的”行星级解决方案”。

加速器计划为期三个月，入选团队会拿到DeepMind的技术资源、导师指导，还有机会跟DeepMind的研究员直接合作。重点是”AI智能体网络”——不是单个模型，而是多个AI协作去处理复杂的环境治理问题。

亚太地区既贡献了全球三分之二的经济增长，也承载了最高的气候脆弱性。绿色技术虽然在兴起，但要把AI真正用到环境治理里，还需要更多的创新和实践。

智能体网络是怎么解决环境问题的

传统AI应用大多是”一个问题、一个模型”，但环境问题不是这样。气候变化、生物多样性丧失、海洋污染——这些都是系统性的问题，需要多个AI智能体协作，分别处理不同的子任务，然后整合出解决方案。

举个例子：预测某个地区的洪灾风险，需要同时分析气象数据、地形数据、土地利用数据、人口密度数据……单个模型很难搞定这么复杂的输入。但如果是多个智能体分工——一个专门处理气象、一个专门分析地形、一个负责人口建模——最后把结果整合起来，准确性会高很多。

亚太地区为什么是首选

选亚太地区作为首个加速器落地点，背后有几层考虑。一是亚太国家的环境问题迫在眉睫——从东南亚的海平面上升，到印度的极端高温，再到中国的空气污染，都是需要紧急应对的现实挑战。二是亚太地区的科技创新生态正在快速成熟，有大量有潜力的初创团队和研究者。

三是数据资源。亚太地区有全球最丰富的人口数据和环境监测数据，这对训练AI模型来说是金矿。DeepMind显然想通过这次加速器，跟亚太的研究团队建立深度合作，拿到这些数据资源。

AI环境治理的想象空间

这次加速器计划触及的，其实是一个被严重低估的方向：AI在环境科学和气候治理中的应用。过去几年，大家都在关注AI怎么改变办公、怎么颠覆搜索、怎么影响内容创作……但AI在科研、在环境治理、在应对气候变化方面的潜力，其实一点都不比那些”网红应用”小。

如果这次加速器能跑出几个成功的案例，说不定会带起一波新的AI创业方向——不再是卷聊天机器人、卷内容生成，而是去做真正有社会价值的事情。

📎 原文来源：Google DeepMind Accelerator program in Asia Pacific

2026年5月18日
前副总裁炮轰微软AI战略：每季度烧钱2700亿，96.7%用户说不

微软前副总裁马特·韦洛索近日公开开火，说微软已经错失了这波AI浪潮，正在重蹈互联网和移动时代的覆辙。这位曾在微软首席执行官身边担任四年技术顾问的高管，抛出的数据相当刺眼——每季度烧掉375亿美元（约2715亿元人民币），但Microsoft 365的4.5亿用户里，96.7%的人拒绝使用Copilot的高级AI功能。

强行捆绑反而把用户推远了

微软的策略说白了就是”强推”——把Copilot直接预装到Windows 11任务栏和Office套件里，以为这样就能让用户就范。结果呢？用户不买账。付费数据更尴尬：4.5亿Microsoft 365用户里，只有约1500万人买了Copilot席位，付费率仅3.3%。

这让我想起当年Windows Phone的结局。微软在移动互联网时代就是这么输的——有技术、有资源，但就是做不出用户真正想要的产品。现在AI这波，看起来历史正在重演。

马特·韦洛索的核心观点很直接：微软已经错失了人工智能发展浪潮，当前的AI战略正在重蹈互联网与移动时代的覆辙，属于自嗨行为。

硬件生态也没带起来

过去一年，微软极力推动笔记本厂商集成NPU芯片，想复制当年Intel Inside的成功模式。但问题是，Windows和Office压根没开发出什么有价值的NPU用例。厂商跟着微软押注NPU，结果市场根本不买账。

更要命的是，作为AI编码核心平台的GitHub，服务可靠性已经降到90%以下。对于依赖GitHub的开发者来说，这意味着每十次操作至少有一次会出问题。AI时代的”基础设施”居然这么脆弱，说实话有点不可思议。

OpenAI绕开微软，直接杀入企业市场

就在微软还在为Copilot的付费率发愁的时候，OpenAI已经悄悄布局了一手——成立名为”OpenAI部署公司”的新部门，拿到超过40亿美元（约290亿元人民币）的初始投资，配备150名部署工程师，直接驻扎在财富500强企业里提供定制化AI解决方案。

这个打法很精明：绕开微软Azure这个中间商，直接切入利润最丰厚的企业服务层。对微软来说，这简直是釜底抽薪——全盘押注OpenAI、指望靠云服务变现的算盘，被OpenAI自己给砸了。

微软正在被动调整

面对用户的强烈反弹，微软已经开始缩减Windows 11中的Copilot功能，转而去优化原生用户界面性能。这等于承认了此前的策略有问题。但问题在于，每季度375亿美元的AI资本支出已经投进去了，现在调整方向，之前的投入怎么算？

股东们已经在问了：这么多钱投进去，到底什么时候能看到回报？微软的答案目前看来还很模糊。AI确实是未来，但砸钱不等于能砸出好产品，这个道理微软好像还没真正想明白。

📎 原文来源：微软前副总裁炮轰：微软已错失AI浪潮正重蹈互联网与移动…

2026年5月18日
OpenClaw：373k Stars！登顶GitHub的AI Agent，让AI从对话进化到执行
🔥 302k+ Stars！登顶GitHub的全球最热AI Agent项目

OpenClaw – 个人开源AI助手

📌 项目简介

OpenClaw 是一款登顶GitHub全球榜首的开源AI Agent项目（373k+ Stars），它将AI从”对话生成”升级为”任务执行”，可以像私人助理一样直接操作你的电脑、浏览器和文件系统，把自然语言指令转化为实际行动。

💻 安装要求与过程

环境要求：
- Node.js 20+（推荐Node.js 20 LTS）
- Windows用户需要WSL2（强烈推荐）
- 开发环境需要pnpm包管理器
快速安装步骤：
```
# 使用npm全局安装
npm install -g openclaw@latest

# 或使用pnpm
pnpm add -g openclaw@latest

# 运行引导向导，设置守护进程
openclaw onboard --install-daemon
```
开发环境搭建：
```
# 克隆仓库
git clone https://github.com/openclaw/openclaw.git
cd openclaw

# 安装依赖（仅支持pnpm）
pnpm install

# 初始化本地配置
pnpm openclaw setup

# 启动开发服务器（支持热重载）
pnpm gateway:watch
```
✨ 核心功能
1. 本地优先架构：所有数据存储在本地设备，无需强制上云，隐私完全自主掌控
2. 20+平台无缝接入：支持WhatsApp、Telegram、Slack、Discord、微信、QQ等主流通讯平台
3. 多Agent路由：不同渠道的消息可以路由到独立的Agent，每个Agent拥有独立工作空间和会话上下文
4. 语音交互：支持macOS/iOS语音唤醒、Android连续对话模式，内置ElevenLabs TTS
5. Live Canvas：Agent驱动的可视化工作空间，支持A2UI（Agent-to-UI）协作执行任务
🎯 典型使用场景

场景1：跨平台个人助理
通过现有通讯应用（如WhatsApp、Telegram）与AI助手交互，无需切换APP即可获取答案、设置提醒、起草内容、自动化日常任务。

场景2：隐私优先的自托管方案
在企业或家庭服务器上运行OpenClaw，所有对话和任务数据完全保存在本地，满足对数据主权有严格要求的场景（如医疗、金融、法律）。

场景3：自定义工作流自动化
利用cron任务、webhooks和自定义技能，实现每日天气预报、日历提醒、社交媒体定时发布等重复任务的自动化执行。

💡 推荐理由

我觉得OpenClaw最厉害的地方在于它真正实现了”AI执行”而不只是”AI对话”。以前的AI工具（包括ChatGPT）主要是帮你生成内容，而OpenClaw可以直接帮你操作电脑——比如你告诉它”帮我下载这个网页的所有图片并分类保存到文件夹”，它真的会去执行！

另外一个亮点是它的”本地优先”设计理念。现在很多AI工具都强制上云，数据隐私是个大问题。OpenClaw让你可以在自己的设备上运行，数据完全不出本地，这点对我来说很有吸引力。

当然，目前项目还在快速迭代中，有些版本可能会有bug（比如2026.3.2版本的工具权限问题），建议跟进官方文档和社区讨论。总体来说，如果你想体验最前沿的AI Agent执行能力，OpenClaw绝对值得一试！

📥 下载地址
- 官方网站：https://openclaw.ai
- GitHub仓库：https://github.com/openclaw/openclaw (373k+ Stars)
- 官方文档：https://docs.openclaw.ai
- ClawHub技能市场：https://clawhub.ai
文章来源：GitHub热门AI开源项目自动介绍系列 | 更新日期：2026-05-18
2026年5月18日
Thinking Machines Lab发布实时交互模型：Mira Murati跳出OpenAI后的第一枪
Mira Murati沉默一年多后，交出了第一张答卷

前OpenAI首席技术官Mira Murati离开老东家快两年了。她创办的Thinking Machines Lab（TML）在2026年5月11日终于放出了第一个研究预览模型——TML-Interaction-Small。这不是又一个”我们有大模型要发布”的常规操作，而是一个直接挑战现有AI交互范式的新尝试。

Murati这个人的履历不需要太多介绍：OpenAI的GPT系列和Claude的竞速时代，她坐在CTO的位置上。2023年Altman被董事会开除那几天，她还短暂当过OpenAI的临时CEO。现在她带着一批OpenAI老部下另起炉灶，拿了两轮总共20多亿美元的融资，估值一度冲到500亿美元。

现有AI都说自己”实时”，但你说话的时候它还在等你停；TML想做的是你随时可以插话，它随时可以接话。

200毫秒的”微轮次”设计

目前的实时语音模型——包括OpenAI的GPT-Realtime和Google的Gemini Live——都有一个共同的设计妥协：它们依赖外挂的语音活动检测组件来判断”用户说完了没”，然后把完整输入传给模型，模型生成回复时感知会冻结。你说话的时候它听，它说话的时候你只能等。

TML的解法是”时间对齐微轮次”：以200毫秒为粒度，同时处理200ms输入、生成200ms输出，输入token流和输出token流在同一个时钟周期里交错运行。效果是你可以随时打断它，它也可以根据视觉信号无提示地响应——比如你指了指屏幕上的某个东西，它不需要你先说”看这个”就能接话。

TML交互模型的工作机制示意图（来源：Unite.AI）

2760亿参数，但只激活120亿

首个公开亮相的模型TML-Interaction-Small采用MoE（混合专家）架构，总参数规模2760亿（276B），但每次推理只激活120亿（12B）参数。这个设计的目的很明确：在保持模型”脑子够用”的同时，把延迟压到200ms以内。

另一个有意思的设计是前后台拆分。前台（交互模型）负责低延迟实时交互，没有重型独立编码器：音频通过轻量嵌入层输入梅尔频谱特征，图像拆成40×40的patch，所有组件从零开始和Transformer共同训练。后台是独立的异步运行模型，负责深度推理、工具调用、网页浏览这些高负载任务，不占用前台交互的计算资源。

跟GPT-Realtime和Gemini Live比怎么样

TML自己跑了两个测试基准：FD-bench V1（轮次切换延迟）和FD-bench V1.5（交互质量，覆盖用户打断、反馈、背景语音等场景）。数据是他们自家报的，第三方还没验证，但数字差距确实不小：
- 轮次切换延迟：TML-Interaction-Small 0.40秒 vs GPT-Realtime-2.0（最小思考模式）1.18秒 vs Gemini 3.1 Flash Live（高思考模式）0.57秒
- 交互质量得分：TML 77.8 vs GPT-Realtime-2.0 46.8 vs Gemini 3.1 Flash Live 45.5
这个分数意味着什么，现在下结论还太早。FD-bench V1.5是TML自己推出的视觉交互测试集，目前还没有独立的baseline可以对照。而且200ms的延迟在实际网络环境下能不能稳住，也是个大问号。

钱和人的问题

TML的融资故事挺戏剧性的。2025年7月完成20亿美元种子轮，估值120亿美元，是当时有记录以来最大规模的种子轮。领投方是Andreessen Horowitz，参投方阵容豪华：英伟达、AMD、思科、Accel、ServiceNow、Jane Street都在列。但2025年底他们想再融一轮把估值推到500亿美元，没成。

人也在流失。2026年1月，联合创始人Barret Zoph和Luke Metz离职返回OpenAI，核心成员Andrew Tulloch被Meta超级智能实验室挖走。Meta累计从TML挖走了5名创始成员。Murati随后提拔PyTorch联合创始人Soumith Chintala担任公司CTO，算是一个信号：她需要更扎实的工程领袖来稳住局面。

算力方面，2026年3月跟英伟达达成了合作，英伟达将进行未披露金额的投资，并部署至少1GW的下一代Vera Rubin计算系统。同时也扩大了与谷歌云的合作，使用英伟达GB300硬件训练前沿模型。

接下来会怎样

目前模型没有向企业或公众开放。TML表示未来几个月会向选定合作伙伴开放有限研究预览，2026年晚些时候会扩大发布范围。他们还计划推出更大规模的交互模型——当前的276B版本是能满足延迟要求的最小变体，更大的版本在效果上会更好，但延迟能不能压住是未知数。

值得观察的问题有几个：长会话下的稳定性、弱网环境下的表现、实时安全拒答机制怎么设计。TML这次把”交互范式”这个根本问题拎出来打，勇气是有的，但能不能落地进生产环境，还需要等模型真正开放之后才知道。

📎 原文来源：Unite.AI – Thinking Machines Lab Ships First Model With 200ms Real-Time Interaction
2026年5月18日
MIT Technology Review 2026年十大AI趋势：从人形数据到反抗浪潮

一份不按常理出牌的AI清单

MIT Technology Review在2026年4月21日首次推出「10 Things That Matter in AI Right Now」年度清单，这跟他们做了二十多年的「10大突破技术」不是一个路数。往年那是预测未来三五年什么技术可能改变世界，今年这份清单直接盯住当下正在发生、而且已经跑起来停不下来的十个AI趋势。

评审团队是MIT TR的AI记者和编辑集体投票选出来的，标准只有一个：这件事现在正在改变什么，而不是它听起来有多酷。结果出炉之后我仔细看了，十个里面有四个跟「可信度」和「物理世界」有关——这个信号值得琢磨。

AI最现实的威胁不是机器人造反，而是你分不清眼前看到的是真的还是算出来的。

人形数据和世界模型：机器人终于要「活」了

榜单第一个趋势是「人形数据」（Humanoid Data）。简单说，就是让机器人学人的动作，需要海量的人类行为视频——怎么拿鸡蛋不捏破、怎么折衣服、怎么在厨房里转身不撞到东西。现在的做法是两路并进：一路是在专门的训练中心里让工作人员重复执行任务，另一路是用远程操控让海外的真人「钻进机器人身体」操纵动作，同时录下示范视频。

第四个趋势「世界模型」（World Models）跟这个一脉相承。现在的LLM很会「说」，但不太能「理解空间」。你问它一个球从桌上滚下去会怎样，它能描述，但它没有真正建模重力和摩擦力在物理世界里的运作方式。世界模型想解决的，就是这个根本的能力缺口。

MIT的报道特别点名了Niantic（《Pokemon GO》开发商）旗下的AI分拆公司，正在用玩家多年累积的30亿张城市街景照片训练下一代世界模型。玩家当初是为了抓宝可梦而拍照，无意间成了史上规模最大的现实世界AI训练数据来源之一。这个叙事，比任何技术白皮书都来得生动。

诈骗升级和武器化深伪：信任正在被掏空

第三个趋势「升级版诈骗」和第六个趋势「武器化深伪」，在榜单里占了两个席位，说明MIT TR对这个问题的严重程度评估相当高。AI降低了诈骗的门槛，你不再需要懂技术才能制作逼真的钓鱼邮件、伪造语音通话、或者批量生成假账号。

更棘手的是第六个趋势点名的两件事：Grok（马斯克旗下xAI的AI）被用来大量生成非自愿性图像，以及美国政府用AI生成内容进行政治宣传。深伪的威胁不只是让假的东西看起来像真的，而是让真的东西也开始被怀疑——当任何视频都可能是假的，人们对所有视觉证据的信任就会崩塌。

多Agent协作和中国开源押注

第七个趋势「智能体编排」（Agent Orchestration）说的是多个AI Agent协作执行复杂任务。第一代AI Agent能帮你浏览网页、写一段代码，但它们各自为政。下一步是让多个Agent分工合作：一个负责搜集资料、另一个负责分析、第三个负责起草报告、第四个负责执行发布——整套流程自动完成，人只需要在关键节点确认。

第八个趋势「中国的开源押注」也很有意思。DeepSeek、Qwen（阿里巴巴）、GLM（智谱AI）——这些中国开源模型在关键基准测试上已经接近主流商用LLM，加上可免费部署、推理成本较低，让全球开发者纷纷在上面建构应用。MIT的核心观察是：越来越多美国与全球的应用，正在「默默」跑在中国AI的基础设施上——这个现象已悄悄发生，而且难以逆转。

反抗浪潮已经来了

第十个趋势「抵抗运动」被放进这份清单，本身就是一个信号。对AI的强力反抗正在全球范围内成形，而且已经开始取得具体的小胜利。这波反抗的来源异常多元：保守派和自由派都有、艺术家和工会都有、欧洲监管机构和美国地方政府都有。他们的诉求各异，但共同点是：AI的发展速度已经超过了社会准备好接受它的速度。

具体的胜利案例包括多国对AI生成艺术的版权保护立法推进，以及影视、音乐、艺术等产业在合约中加入AI使用授权条款。在音乐平台端，多个平台已经开始对AI生成内容增加标记与调控机制。

📎 原文来源：MIT Technology Review – 10 Things That Matter in AI Right Now

2026年5月18日
英伟达Lyra 2.0：一张照片生成90米3D世界，具身智能有”健身房”了

4月16日，英伟达研究团队悄悄放了个大招：Lyra 2.0，一个能从单张照片生成大规模3D场景的系统。这东西的目标很明确——给具身智能（embodied AI）提供训练场，让机器人在虚拟世界里先练熟了，再到现实中干活。

你只需要喂给它一张图片，它就能给你生成一个纵深90米的连贯3D环境。这个距离什么概念？差不多一个足球场的长度。而且相机一路走一路拍，回来的时候场景还是你刚才看到的那个，不会突然变形或者裂开。

它解决了两个老大难问题

以前的3D生成模型有两个通病，英伟达这次都给治了。

第一个叫”空间遗忘”——相机绕着场景走一圈再回到原点，发现原来的地方已经不认识了，场景扭曲得像进了哈哈镜。Lyra 2.0的做法很直白：实时把每一帧的3D几何信息存下来，相机回到老地方的时候，直接调档案，保证看到的东西跟第一次看到的一样。

第二个问题更麻烦，叫误差累积——生成的帧数越多，前面犯的错会一直往后传，到最后整个场景崩掉。Lyra 2.0在训练的时候故意把一些有缺陷的输出喂给模型，让它学会自己纠正自己。这个思路有点像让模型”打草稿→检查→修改”，而不是一条路走到黑。

在图像质量、相机控制这两项核心指标上，Lyra 2.0干掉了GEN3C、Yume-1.5等6个同类型竞品。快速版本比基础版效率提升13倍。

跟机器人仿真平台打通了

这是Lyra 2.0最实用的地方。它跟英伟达自己的Isaac Sim（机器人仿真平台）无缝集成，生成的3D场景可以直接导出为网格模型，机器人就能在这个虚拟环境里训练算法。

以前要训练一个具身智能模型，你得派人拿着激光雷达和相机去现实世界扫一大堆3D数据，费时费力还贵。现在Lyra 2.0能自动生成多样化的训练场景，机器人先在虚拟世界里把活干熟练了，再到现实里上路。

目前它只支持静态场景生成，动态物体还没搞定。但光是静态场景这个突破，已经给自动驾驶、通用机器人的物理感知训练提供了不少帮助。

为什么这事值得关注

3D世界生成这个方向，本质上是给AI建”健身房”。大模型是靠海量文本数据喂出来的，具身智能要靠海量3D交互数据，而现实世界的数据采集成本太高了。

英伟达这步棋很精明——它不跟你卷大模型，它给你造训练大模型需要的”场地”。你用不用它的GPU跑模型另说，但你要想训练具身智能，它的仿真工具链几乎是绕不开的。

目前没有看到Lyra 2.0开源的消息，但英伟达过去在研究方向上有开放的传统，后续会不会放出来让社区用，值得盯着。

对于做具身智能的团队来说，这类工具的价值在于缩短迭代周期。以前一个场景要扫好几天，现在一张图几分钟出结果，测完不行马上改，迭代速度快了不止一个量级。

📎 原文来源：英伟达发布Lyra 2.0：单张照片生成90米3D环境

2026年5月18日
Google I/O 2026明天开幕：Gemini 4.0、XR眼镜和Aluminium OS一次看完

明天（5月19日）凌晨1点，Google I/O 2026就要开幕了。这场在加州山景城Shoreline圆形剧场举办的大会，今年把全部火力集中到了AI上——官方直接放话，主题演讲就讲两件事：最新的Gemini模型更新，以及智能体编程（agentic coding）。

有意思的是，Google在5月12日的Android Show上已经把平台类消息全放完了，所以这次I/O完全不给别的新闻留活路，就是要让你盯着模型和硬件看。

Gemini 4.0，这次能打吗？

行业里普遍预计Google会在本届I/O正式推出Gemini 4.0。这个数字命名很有意思——跳过了3.5、3.8这些中间版本，直接上4.0，摆明了是要跟Claude Opus 4.7和GPT-5.5正面刚。

核心看点只有一个：Gemini 4.0在GPQA基准测试上能不能摸到Claude Mythos Preview的94.6%水平。如果能，Google这波就拿下了当周AI行业的叙事主导权。

除了纯性能，这次Gemini的Workspace集成和智能体任务可靠性也是重点。企业用户不在乎你跑分多少，只在乎这东西能不能稳定帮我干活。

Android XR眼镜终于要见了

Google的XR眼镜这次真的要亮相了。已确认的硬件合作伙伴包括三星、Warby Parker、Gentle Monster和XREAL。产品规划里有一款无显示屏版本，靠语音调用Gemini交互，不用抬手不用看屏幕，问就行。

这东西2026年就要上市，比Meta雷声大雨点小的Avocado模型靠谱多了——至少眼镜是实打实的硬件，你能摸到。

Aluminium OS：ChromeOS的接班人

这个比较意外。Google副总裁Sameer Samat已经公开确认2026年推出Aluminium OS，定位是ChromeOS的替代系统，面向消费级笔记本市场。

泄露出来的16分钟上手演示显示，这系统长得像Android的桌面版——底部有Dock栏，支持虚拟桌面，还能通过「Link to iOS」应用跟iPhone互联。对，Google也在打跨设备协同的主意，跟苹果的生态封闭正好反着来。

对企业用户意味着什么

预期会同步发布Google Cloud Agentic Toolkit，包含扩展API、明确定价细则和Workspace深度集成。企业要是想用Google的智能体工具，这次应该能拿到一份完整的路线图和价目表。

对国内做AI应用层的公司来说，Gemini 4.0如果真达到了Claude级别的性能，那模型层的竞争格局又要变。你现在押注的API供应商，半年后可能就不是最优解了。

为什么这场发布会值得熬夜看

2026年5月被认为是AI发展史上最繁忙的两周之一，而Google I/O是这波高潮的正式 opening。如果Gemini 4.0表现达到预期，Anthropic和OpenAI苦心经营大半年的叙事优势可能被直接动摇。

甚至连Meta都推迟了下一代模型Avocado的发布，明说要避免被I/O的新闻热度淹没——你想想，能让竞争对手主动让路的大会，值不值得关注？

📎 原文来源：AI News Today – May 18, 2026: 13 Biggest Stories

2026年5月18日

博客

Gemini 4.0：直接对标Claude Mythos

Android XR眼镜：跟Meta的又一次对决

Aluminium OS：ChromeOS的终点，Android桌面的起点

Google Cloud Agentic Toolkit：企业智能体的定价终于要透明了

战局研判：这一周的胜负手

不是自愿，是强制

全球监管协同正在形成

对行业意味着什么

宽松在哪里

中小企业也受惠

红线还在

企业该怎么应对

从生产力工具到行星级解决方案

智能体网络是怎么解决环境问题的

亚太地区为什么是首选

AI环境治理的想象空间

强行捆绑反而把用户推远了

硬件生态也没带起来

OpenAI绕开微软，直接杀入企业市场

微软正在被动调整

🔥 302k+ Stars！登顶GitHub的全球最热AI Agent项目

📌 项目简介

💻 安装要求与过程

✨ 核心功能

🎯 典型使用场景

💡 推荐理由

📥 下载地址

Mira Murati沉默一年多后，交出了第一张答卷

200毫秒的”微轮次”设计

2760亿参数，但只激活120亿

跟GPT-Realtime和Gemini Live比怎么样

钱和人的问题

接下来会怎样

一份不按常理出牌的AI清单

人形数据和世界模型：机器人终于要「活」了

诈骗升级和武器化深伪：信任正在被掏空

多Agent协作和中国开源押注

反抗浪潮已经来了

它解决了两个老大难问题

跟机器人仿真平台打通了

为什么这事值得关注

Gemini 4.0，这次能打吗？

Android XR眼镜终于要见了

Aluminium OS：ChromeOS的接班人

对企业用户意味着什么

为什么这场发布会值得熬夜看