博客

  • Google I/O 2026明天开幕:Gemini 4.0、XR眼镜、Aluminium OS,谷歌全产品线押注AI

    明天(5月19日)上午10点PT,Google I/O 2026将在山景城Shoreline露天剧场拉开帷幕。这是48小时之内就要发生的、本月规模最大的AI盛会。谷歌已经确认主题演讲将涵盖”最新Gemini模型更新”和”智能体编程”——业界普遍解读为Gemini 4.0即将亮相。

    Gemini 4.0:直接对标Claude Mythos

    谷歌这次把赌注全压在了Gemini 4.0上。根据已泄露的路线图材料和官方暗示,这次升级将在多模态推理、Workspace集成和智能体可靠性三个维度全面进化。如果Gemini 4.0的基准测试成绩能接近甚至追平Claude Mythos Preview的94.6% GPQA得分,谷歌就能在这一周里重新掌握AI叙事的主导权。

    有意思的是,谷歌在5月12日的Android Show上已经把平台级更新提前发布了,I/O专门留给模型发布和硬件,这个节奏安排相当聪明——避免自家产品抢流量,把最炸的牌留到主会场。


    Android XR眼镜:跟Meta的又一次对决

    硬件方面最值得关注的是Android XR眼镜。谷歌已经确认了和三星、Warby Parker、Gentle Monster以及XREAL的硬件合作伙伴关系。一款无显示屏的型号——主打免手持Gemini交互——预计2026年内就能上市。

    这明显是冲着Meta的Ray-Ban智能眼镜去的。不同的是,谷歌的方案更彻底:不靠镜片显示,而是把Gemini变成你随时可以对话的”副驾驶”。这个方向到底能不能打,I/O上应该会有更详细的交互演示。


    Aluminium OS:ChromeOS的终点,Android桌面的起点

    一个相对低调但影响深远的发布是Aluminium OS——谷歌用来替代ChromeOS的Android底层系统。副总裁Sameer Samat已经确认2026年推出。最近泄露的一段16分钟上手视频显示,这个新系统长得像一个放大版Android:底部Dock、虚拟桌面、完整应用窗口,就是没有传统Linux底层的那种笨重感。

    如果Aluminium OS真的能在2026年完成ChromeOS的替换,谷歌就拥有了一条从手机(Android)到平板(Android XR)到笔记本(Aluminium)到云(Google Cloud Agentic Toolkit)的完整AI设备链路。苹果还没把这个拼图拼完整。


    Google Cloud Agentic Toolkit:企业智能体的定价终于要透明了

    对企业用户来说,这次I/O最实在的内容可能是Google Cloud Agentic Toolkit的扩展API和定价细节。之前谷歌在企业智能体这块的商业化一直比较模糊,这次应该会把Workspace集成和Agent部署的企业级收费模式说清楚。

    讲真,企业在选智能体平台的时候,定价透明度本身就是竞争力。Anthropic把Claude for Small Business的定价和集成直接做进产品里,谷歌如果还在绕圈子,企业客户会用脚投票的。


    战局研判:这一周的胜负手

    把时间线拉远一点看,这一周很可能是2026年AI竞争的转折点。Anthropic预计在5月底前关闭$900B估值的融资轮,谷歌在5月19日放大招,Meta的Avocado模型跳票到6月——三家的节奏完全错开了。

    如果Gemini 4.0的实测表现真的能打,谷歌就能在Anthropic融资关闭之前把叙事抢回来。如果表现平平,那$900B的估值就会让Anthropic在接下来几个月里持续占据头条。

    明天上午10点PT,答案揭晓。

  • 五大前沿AI实验室被纳入政府监管:模型发布前要先过这一关

    美国商务部下属的AI安全与基础设施局(CAISI)近期悄悄干了一件事——和OpenAI、Anthropic、Google DeepMind、微软、xAI这五家前沿AI实验室全部签署了预部署评估协议。意思是,这些实验室的主流模型在正式发布前,得先过政府这一关。

    不是自愿,是强制

    这份协议已经最终敲定,具有约束力。覆盖范围是五家实验室计划在美国境内发布的所有主流前沿模型。评估由CAISI主导,核心目标是排查模型的安全风险和合规隐患,防止模型发布后引发监管暴露问题。

    具体评估指标和详细内容目前没有公开,但可以参考英国AI安全研究所最新发布的红队测试指南——主要聚焦模型能力边界和潜在滥用风险。这个变化意味着,从模型官宣到API正式对外开放,中间会多一段政府评估的时间窗口。

    这标志着美国AI产业正式从”快速行动、打破常规”的野蛮生长阶段,转向受监管的基础设施类产业的监管逻辑——是行业结构性的监管转向。

    全球监管协同正在形成

    欧盟方面也在跟进。目前欧盟正与Anthropic洽谈Mythos模型的政府访问权限,但尚未达成与美国同等层级的协议。英国AI安全研究所则在Google I/O大会开幕前更新了红队测试指南,表明国际层面在协同关注前沿模型能力监管。

    对企业用户来说,这套新流程相当于给前沿模型加了一层官方信任背书——所有模型在发布前都经过政府评估,理论上能降低企业部署后遭遇监管处罚或合规风险的可能性。

    对行业意味着什么

    短期来看,模型发布节奏会受影响。实验室需要预留政府评估的时间,从完成训练到正式上线的时间窗口会被拉长。对于那些靠”抢先发布”来占据市场注意力的实验室来说,这不是一个好消息。

    但换个角度看,政府背书也能成为竞争优势。Anthropic在企业市场的迅猛增长,部分原因就是它的模型被认为”更安全、更合规”。当监管成为行业标准的一部分,跑赢合规反而可能是最好的市场策略。

    xAI作为名单里最新的成员,它的加入说明监管网已经覆盖了所有主流玩家,不管创始人埃隆·马斯克和华盛顿的关系如何,规则面前暂时人人平等。


  • 欧盟AI法案松口了:合规截止日期推迟,中型企业也能喘口气

    5月7日,欧盟理事会和欧洲议会谈判代表就AI法案简化方案达成临时协议,这是继2024年AI法案正式生效后,欧盟首次对规则进行大规模”松绑”。距离原定8月2日的高风险AI系统合规截止日只剩三个月,很多企业还没摸清门道,欧盟干脆把期限往后推了。

    宽松在哪里

    最直观的变化是截止日期——独立类高风险AI系统的合规期限从今年8月推到了2027年12月2日,嵌入医疗设备等受监管产品的高风险AI更是延至2028年8月2日。中间还有4个月的”水印义务宽限期”,今年8月2日前投放市场的生成式AI,可以等到12月2日再完成水印标注合规。

    受监管范围也在收窄。工业机械内置的AI系统,如果已经受欧盟《机械法规》覆盖,直接被剔除出AI法案监管范围。医疗设备、玩具、电梯等产品中内置的AI”安全组件”,只需要遵守对应行业的安全法规,不用再重复履行AI法案的义务。

    “安全组件”的定义被收窄了——只有当AI功能失效会直接造成健康或安全风险时,才会被认定为高风险AI的”安全组件”。那些只是用来辅助用户、优化性能的AI功能,不会再被自动划为高风险范畴。

    中小企业也受惠

    原来只有小微企业(SME)才能享受的简化合规政策,现在扩展到了员工不超过750人、年营收不超过1.5亿欧元的中型企业。这意味着一大批成长型AI公司可以享用简化合规指南、更低的罚款标准,以及监管沙盒的准入资格。

    还有一个挺有意思的放宽:企业现在可以使用GDPR定义下的特殊类别个人数据(健康信息、生物特征数据、种族、性取向等)来检测和缓解AI模型的偏见,不需要再走此前那套严苛的特殊数据审批流程。

    红线还在

    放宽不等于放任。”nudifier”类AI应用——也就是用来生成未经同意的亲密内容、儿童性虐待材料的系统——被新增为禁止项,今年12月2日起生效,违反禁止性规定的最高罚款是3500万欧元,或全球年营业额的7%,取高者。

    透明度义务(聊天机器人披露、深伪内容水印等)依然在8月2日生效,只是水印部分给了4个月宽限。罚款标准是不超过1500万欧元或全球年营业额的3%。


    企业该怎么应对

    宽限期多出来的这几个月的用处,是让企业把合规框架搭好,而不是继续拖。欧盟委员会到现在还没发布高风险AI系统的协调标准,等标准出来的时候,留给企业调整的时间可能还是不够。提前把风险分类、数据治理、技术文档这些基础工作做扎实,比临时抱佛脚要靠谱得多。

    还有一个现实问题:欧盟数据保护机构已经在AI领域开展GDPR执法了,已经有企业因为违规被罚款、相关AI应用被禁用。AI法案和GDPR是两套并行规则,合规的时候不能只盯着一个看。

  • Google DeepMind启动亚太加速器,用AI守护地球

    谷歌DeepMind最近宣布启动亚太区”AI for the Planet”加速器计划,要把AI用到气候变化这类棘手的环境问题上。亚太地区既是全球经济增长引擎,又是气候变化的高脆弱区,这个选择其实很有战略眼光。

    从生产力工具到行星级解决方案

    DeepMind这个动作,标志着它的定位正在发生根本性转变——不再只是做AlphaFold、大语言模型这类”生产力工具”,而是要把AI变成解决全球性问题的”行星级解决方案”。

    加速器计划为期三个月,入选团队会拿到DeepMind的技术资源、导师指导,还有机会跟DeepMind的研究员直接合作。重点是”AI智能体网络”——不是单个模型,而是多个AI协作去处理复杂的环境治理问题。

    亚太地区既贡献了全球三分之二的经济增长,也承载了最高的气候脆弱性。绿色技术虽然在兴起,但要把AI真正用到环境治理里,还需要更多的创新和实践。

    智能体网络是怎么解决环境问题的

    传统AI应用大多是”一个问题、一个模型”,但环境问题不是这样。气候变化、生物多样性丧失、海洋污染——这些都是系统性的问题,需要多个AI智能体协作,分别处理不同的子任务,然后整合出解决方案。

    举个例子:预测某个地区的洪灾风险,需要同时分析气象数据、地形数据、土地利用数据、人口密度数据……单个模型很难搞定这么复杂的输入。但如果是多个智能体分工——一个专门处理气象、一个专门分析地形、一个负责人口建模——最后把结果整合起来,准确性会高很多。

    亚太地区为什么是首选

    选亚太地区作为首个加速器落地点,背后有几层考虑。一是亚太国家的环境问题迫在眉睫——从东南亚的海平面上升,到印度的极端高温,再到中国的空气污染,都是需要紧急应对的现实挑战。二是亚太地区的科技创新生态正在快速成熟,有大量有潜力的初创团队和研究者。

    三是数据资源。亚太地区有全球最丰富的人口数据和环境监测数据,这对训练AI模型来说是金矿。DeepMind显然想通过这次加速器,跟亚太的研究团队建立深度合作,拿到这些数据资源。


    AI环境治理的想象空间

    这次加速器计划触及的,其实是一个被严重低估的方向:AI在环境科学和气候治理中的应用。过去几年,大家都在关注AI怎么改变办公、怎么颠覆搜索、怎么影响内容创作……但AI在科研、在环境治理、在应对气候变化方面的潜力,其实一点都不比那些”网红应用”小。

    如果这次加速器能跑出几个成功的案例,说不定会带起一波新的AI创业方向——不再是卷聊天机器人、卷内容生成,而是去做真正有社会价值的事情。

  • 前副总裁炮轰微软AI战略:每季度烧钱2700亿,96.7%用户说不

    微软前副总裁马特·韦洛索近日公开开火,说微软已经错失了这波AI浪潮,正在重蹈互联网和移动时代的覆辙。这位曾在微软首席执行官身边担任四年技术顾问的高管,抛出的数据相当刺眼——每季度烧掉375亿美元(约2715亿元人民币),但Microsoft 365的4.5亿用户里,96.7%的人拒绝使用Copilot的高级AI功能。

    强行捆绑反而把用户推远了

    微软的策略说白了就是”强推”——把Copilot直接预装到Windows 11任务栏和Office套件里,以为这样就能让用户就范。结果呢?用户不买账。付费数据更尴尬:4.5亿Microsoft 365用户里,只有约1500万人买了Copilot席位,付费率仅3.3%。

    这让我想起当年Windows Phone的结局。微软在移动互联网时代就是这么输的——有技术、有资源,但就是做不出用户真正想要的产品。现在AI这波,看起来历史正在重演。

    马特·韦洛索的核心观点很直接:微软已经错失了人工智能发展浪潮,当前的AI战略正在重蹈互联网与移动时代的覆辙,属于自嗨行为。

    硬件生态也没带起来

    过去一年,微软极力推动笔记本厂商集成NPU芯片,想复制当年Intel Inside的成功模式。但问题是,Windows和Office压根没开发出什么有价值的NPU用例。厂商跟着微软押注NPU,结果市场根本不买账。

    更要命的是,作为AI编码核心平台的GitHub,服务可靠性已经降到90%以下。对于依赖GitHub的开发者来说,这意味着每十次操作至少有一次会出问题。AI时代的”基础设施”居然这么脆弱,说实话有点不可思议。

    OpenAI绕开微软,直接杀入企业市场

    就在微软还在为Copilot的付费率发愁的时候,OpenAI已经悄悄布局了一手——成立名为”OpenAI部署公司”的新部门,拿到超过40亿美元(约290亿元人民币)的初始投资,配备150名部署工程师,直接驻扎在财富500强企业里提供定制化AI解决方案。

    这个打法很精明:绕开微软Azure这个中间商,直接切入利润最丰厚的企业服务层。对微软来说,这简直是釜底抽薪——全盘押注OpenAI、指望靠云服务变现的算盘,被OpenAI自己给砸了。


    微软正在被动调整

    面对用户的强烈反弹,微软已经开始缩减Windows 11中的Copilot功能,转而去优化原生用户界面性能。这等于承认了此前的策略有问题。但问题在于,每季度375亿美元的AI资本支出已经投进去了,现在调整方向,之前的投入怎么算?

    股东们已经在问了:这么多钱投进去,到底什么时候能看到回报?微软的答案目前看来还很模糊。AI确实是未来,但砸钱不等于能砸出好产品,这个道理微软好像还没真正想明白。

  • OpenClaw:373k Stars!登顶GitHub的AI Agent,让AI从对话进化到执行

    OpenClaw:373k Stars!登顶GitHub的AI Agent,让AI从对话进化到执行

    🔥 302k+ Stars!登顶GitHub的全球最热AI Agent项目

    OpenClaw Logo

    OpenClaw – 个人开源AI助手

    📌 项目简介

    OpenClaw 是一款登顶GitHub全球榜首的开源AI Agent项目(373k+ Stars),它将AI从”对话生成”升级为”任务执行”,可以像私人助理一样直接操作你的电脑、浏览器和文件系统,把自然语言指令转化为实际行动。

    💻 安装要求与过程

    环境要求:

    • Node.js 20+(推荐Node.js 20 LTS)
    • Windows用户需要WSL2(强烈推荐)
    • 开发环境需要pnpm包管理器

    快速安装步骤:

    # 使用npm全局安装
    npm install -g openclaw@latest
    
    # 或使用pnpm
    pnpm add -g openclaw@latest
    
    # 运行引导向导,设置守护进程
    openclaw onboard --install-daemon
    

    开发环境搭建:

    # 克隆仓库
    git clone https://github.com/openclaw/openclaw.git
    cd openclaw
    
    # 安装依赖(仅支持pnpm)
    pnpm install
    
    # 初始化本地配置
    pnpm openclaw setup
    
    # 启动开发服务器(支持热重载)
    pnpm gateway:watch
    

    ✨ 核心功能

    1. 本地优先架构:所有数据存储在本地设备,无需强制上云,隐私完全自主掌控
    2. 20+平台无缝接入:支持WhatsApp、Telegram、Slack、Discord、微信、QQ等主流通讯平台
    3. 多Agent路由:不同渠道的消息可以路由到独立的Agent,每个Agent拥有独立工作空间和会话上下文
    4. 语音交互:支持macOS/iOS语音唤醒、Android连续对话模式,内置ElevenLabs TTS
    5. Live Canvas:Agent驱动的可视化工作空间,支持A2UI(Agent-to-UI)协作执行任务

    🎯 典型使用场景

    场景1:跨平台个人助理
    通过现有通讯应用(如WhatsApp、Telegram)与AI助手交互,无需切换APP即可获取答案、设置提醒、起草内容、自动化日常任务。

    场景2:隐私优先的自托管方案
    在企业或家庭服务器上运行OpenClaw,所有对话和任务数据完全保存在本地,满足对数据主权有严格要求的场景(如医疗、金融、法律)。

    场景3:自定义工作流自动化
    利用cron任务、webhooks和自定义技能,实现每日天气预报、日历提醒、社交媒体定时发布等重复任务的自动化执行。

    💡 推荐理由

    我觉得OpenClaw最厉害的地方在于它真正实现了”AI执行”而不只是”AI对话”。以前的AI工具(包括ChatGPT)主要是帮你生成内容,而OpenClaw可以直接帮你操作电脑——比如你告诉它”帮我下载这个网页的所有图片并分类保存到文件夹”,它真的会去执行!

    另外一个亮点是它的”本地优先”设计理念。现在很多AI工具都强制上云,数据隐私是个大问题。OpenClaw让你可以在自己的设备上运行,数据完全不出本地,这点对我来说很有吸引力。

    当然,目前项目还在快速迭代中,有些版本可能会有bug(比如2026.3.2版本的工具权限问题),建议跟进官方文档和社区讨论。总体来说,如果你想体验最前沿的AI Agent执行能力,OpenClaw绝对值得一试!

    📥 下载地址


    文章来源:GitHub热门AI开源项目自动介绍系列 | 更新日期:2026-05-18

  • Thinking Machines Lab发布实时交互模型:Mira Murati跳出OpenAI后的第一枪

    Mira Murati沉默一年多后,交出了第一张答卷

    前OpenAI首席技术官Mira Murati离开老东家快两年了。她创办的Thinking Machines Lab(TML)在2026年5月11日终于放出了第一个研究预览模型——TML-Interaction-Small。这不是又一个”我们有大模型要发布”的常规操作,而是一个直接挑战现有AI交互范式的新尝试。

    Murati这个人的履历不需要太多介绍:OpenAI的GPT系列和Claude的竞速时代,她坐在CTO的位置上。2023年Altman被董事会开除那几天,她还短暂当过OpenAI的临时CEO。现在她带着一批OpenAI老部下另起炉灶,拿了两轮总共20多亿美元的融资,估值一度冲到500亿美元。

    现有AI都说自己”实时”,但你说话的时候它还在等你停;TML想做的是你随时可以插话,它随时可以接话。

    200毫秒的”微轮次”设计

    目前的实时语音模型——包括OpenAI的GPT-Realtime和Google的Gemini Live——都有一个共同的设计妥协:它们依赖外挂的语音活动检测组件来判断”用户说完了没”,然后把完整输入传给模型,模型生成回复时感知会冻结。你说话的时候它听,它说话的时候你只能等。

    TML的解法是”时间对齐微轮次”:以200毫秒为粒度,同时处理200ms输入、生成200ms输出,输入token流和输出token流在同一个时钟周期里交错运行。效果是你可以随时打断它,它也可以根据视觉信号无提示地响应——比如你指了指屏幕上的某个东西,它不需要你先说”看这个”就能接话。

    Thinking Machines Lab交互模型示意图
    TML交互模型的工作机制示意图(来源:Unite.AI)

    2760亿参数,但只激活120亿

    首个公开亮相的模型TML-Interaction-Small采用MoE(混合专家)架构,总参数规模2760亿(276B),但每次推理只激活120亿(12B)参数。这个设计的目的很明确:在保持模型”脑子够用”的同时,把延迟压到200ms以内。

    另一个有意思的设计是前后台拆分。前台(交互模型)负责低延迟实时交互,没有重型独立编码器:音频通过轻量嵌入层输入梅尔频谱特征,图像拆成40×40的patch,所有组件从零开始和Transformer共同训练。后台是独立的异步运行模型,负责深度推理、工具调用、网页浏览这些高负载任务,不占用前台交互的计算资源。


    跟GPT-Realtime和Gemini Live比怎么样

    TML自己跑了两个测试基准:FD-bench V1(轮次切换延迟)和FD-bench V1.5(交互质量,覆盖用户打断、反馈、背景语音等场景)。数据是他们自家报的,第三方还没验证,但数字差距确实不小:

    • 轮次切换延迟:TML-Interaction-Small 0.40秒 vs GPT-Realtime-2.0(最小思考模式)1.18秒 vs Gemini 3.1 Flash Live(高思考模式)0.57秒
    • 交互质量得分:TML 77.8 vs GPT-Realtime-2.0 46.8 vs Gemini 3.1 Flash Live 45.5

    这个分数意味着什么,现在下结论还太早。FD-bench V1.5是TML自己推出的视觉交互测试集,目前还没有独立的baseline可以对照。而且200ms的延迟在实际网络环境下能不能稳住,也是个大问号。

    钱和人的问题

    TML的融资故事挺戏剧性的。2025年7月完成20亿美元种子轮,估值120亿美元,是当时有记录以来最大规模的种子轮。领投方是Andreessen Horowitz,参投方阵容豪华:英伟达、AMD、思科、Accel、ServiceNow、Jane Street都在列。但2025年底他们想再融一轮把估值推到500亿美元,没成。

    人也在流失。2026年1月,联合创始人Barret Zoph和Luke Metz离职返回OpenAI,核心成员Andrew Tulloch被Meta超级智能实验室挖走。Meta累计从TML挖走了5名创始成员。Murati随后提拔PyTorch联合创始人Soumith Chintala担任公司CTO,算是一个信号:她需要更扎实的工程领袖来稳住局面。

    算力方面,2026年3月跟英伟达达成了合作,英伟达将进行未披露金额的投资,并部署至少1GW的下一代Vera Rubin计算系统。同时也扩大了与谷歌云的合作,使用英伟达GB300硬件训练前沿模型。

    接下来会怎样

    目前模型没有向企业或公众开放。TML表示未来几个月会向选定合作伙伴开放有限研究预览,2026年晚些时候会扩大发布范围。他们还计划推出更大规模的交互模型——当前的276B版本是能满足延迟要求的最小变体,更大的版本在效果上会更好,但延迟能不能压住是未知数。

    值得观察的问题有几个:长会话下的稳定性、弱网环境下的表现、实时安全拒答机制怎么设计。TML这次把”交互范式”这个根本问题拎出来打,勇气是有的,但能不能落地进生产环境,还需要等模型真正开放之后才知道。

  • MIT Technology Review 2026年十大AI趋势:从人形数据到反抗浪潮

    一份不按常理出牌的AI清单

    MIT Technology Review在2026年4月21日首次推出「10 Things That Matter in AI Right Now」年度清单,这跟他们做了二十多年的「10大突破技术」不是一个路数。往年那是预测未来三五年什么技术可能改变世界,今年这份清单直接盯住当下正在发生、而且已经跑起来停不下来的十个AI趋势。

    评审团队是MIT TR的AI记者和编辑集体投票选出来的,标准只有一个:这件事现在正在改变什么,而不是它听起来有多酷。结果出炉之后我仔细看了,十个里面有四个跟「可信度」和「物理世界」有关——这个信号值得琢磨。

    AI最现实的威胁不是机器人造反,而是你分不清眼前看到的是真的还是算出来的。

    人形数据和世界模型:机器人终于要「活」了

    榜单第一个趋势是「人形数据」(Humanoid Data)。简单说,就是让机器人学人的动作,需要海量的人类行为视频——怎么拿鸡蛋不捏破、怎么折衣服、怎么在厨房里转身不撞到东西。现在的做法是两路并进:一路是在专门的训练中心里让工作人员重复执行任务,另一路是用远程操控让海外的真人「钻进机器人身体」操纵动作,同时录下示范视频。

    第四个趋势「世界模型」(World Models)跟这个一脉相承。现在的LLM很会「说」,但不太能「理解空间」。你问它一个球从桌上滚下去会怎样,它能描述,但它没有真正建模重力和摩擦力在物理世界里的运作方式。世界模型想解决的,就是这个根本的能力缺口。

    MIT的报道特别点名了Niantic(《Pokemon GO》开发商)旗下的AI分拆公司,正在用玩家多年累积的30亿张城市街景照片训练下一代世界模型。玩家当初是为了抓宝可梦而拍照,无意间成了史上规模最大的现实世界AI训练数据来源之一。这个叙事,比任何技术白皮书都来得生动。

    诈骗升级和武器化深伪:信任正在被掏空

    第三个趋势「升级版诈骗」和第六个趋势「武器化深伪」,在榜单里占了两个席位,说明MIT TR对这个问题的严重程度评估相当高。AI降低了诈骗的门槛,你不再需要懂技术才能制作逼真的钓鱼邮件、伪造语音通话、或者批量生成假账号。

    更棘手的是第六个趋势点名的两件事:Grok(马斯克旗下xAI的AI)被用来大量生成非自愿性图像,以及美国政府用AI生成内容进行政治宣传。深伪的威胁不只是让假的东西看起来像真的,而是让真的东西也开始被怀疑——当任何视频都可能是假的,人们对所有视觉证据的信任就会崩塌。


    多Agent协作和中国开源押注

    第七个趋势「智能体编排」(Agent Orchestration)说的是多个AI Agent协作执行复杂任务。第一代AI Agent能帮你浏览网页、写一段代码,但它们各自为政。下一步是让多个Agent分工合作:一个负责搜集资料、另一个负责分析、第三个负责起草报告、第四个负责执行发布——整套流程自动完成,人只需要在关键节点确认。

    第八个趋势「中国的开源押注」也很有意思。DeepSeek、Qwen(阿里巴巴)、GLM(智谱AI)——这些中国开源模型在关键基准测试上已经接近主流商用LLM,加上可免费部署、推理成本较低,让全球开发者纷纷在上面建构应用。MIT的核心观察是:越来越多美国与全球的应用,正在「默默」跑在中国AI的基础设施上——这个现象已悄悄发生,而且难以逆转。

    反抗浪潮已经来了

    第十个趋势「抵抗运动」被放进这份清单,本身就是一个信号。对AI的强力反抗正在全球范围内成形,而且已经开始取得具体的小胜利。这波反抗的来源异常多元:保守派和自由派都有、艺术家和工会都有、欧洲监管机构和美国地方政府都有。他们的诉求各异,但共同点是:AI的发展速度已经超过了社会准备好接受它的速度。

    具体的胜利案例包括多国对AI生成艺术的版权保护立法推进,以及影视、音乐、艺术等产业在合约中加入AI使用授权条款。在音乐平台端,多个平台已经开始对AI生成内容增加标记与调控机制。

  • 英伟达Lyra 2.0:一张照片生成90米3D世界,具身智能有”健身房”了

    4月16日,英伟达研究团队悄悄放了个大招:Lyra 2.0,一个能从单张照片生成大规模3D场景的系统。这东西的目标很明确——给具身智能(embodied AI)提供训练场,让机器人在虚拟世界里先练熟了,再到现实中干活。

    你只需要喂给它一张图片,它就能给你生成一个纵深90米的连贯3D环境。这个距离什么概念?差不多一个足球场的长度。而且相机一路走一路拍,回来的时候场景还是你刚才看到的那个,不会突然变形或者裂开。

    它解决了两个老大难问题

    以前的3D生成模型有两个通病,英伟达这次都给治了。

    第一个叫”空间遗忘”——相机绕着场景走一圈再回到原点,发现原来的地方已经不认识了,场景扭曲得像进了哈哈镜。Lyra 2.0的做法很直白:实时把每一帧的3D几何信息存下来,相机回到老地方的时候,直接调档案,保证看到的东西跟第一次看到的一样。

    第二个问题更麻烦,叫误差累积——生成的帧数越多,前面犯的错会一直往后传,到最后整个场景崩掉。Lyra 2.0在训练的时候故意把一些有缺陷的输出喂给模型,让它学会自己纠正自己。这个思路有点像让模型”打草稿→检查→修改”,而不是一条路走到黑。

    在图像质量、相机控制这两项核心指标上,Lyra 2.0干掉了GEN3C、Yume-1.5等6个同类型竞品。快速版本比基础版效率提升13倍。

    跟机器人仿真平台打通了

    这是Lyra 2.0最实用的地方。它跟英伟达自己的Isaac Sim(机器人仿真平台)无缝集成,生成的3D场景可以直接导出为网格模型,机器人就能在这个虚拟环境里训练算法。

    以前要训练一个具身智能模型,你得派人拿着激光雷达和相机去现实世界扫一大堆3D数据,费时费力还贵。现在Lyra 2.0能自动生成多样化的训练场景,机器人先在虚拟世界里把活干熟练了,再到现实里上路。

    目前它只支持静态场景生成,动态物体还没搞定。但光是静态场景这个突破,已经给自动驾驶、通用机器人的物理感知训练提供了不少帮助。

    为什么这事值得关注

    3D世界生成这个方向,本质上是给AI建”健身房”。大模型是靠海量文本数据喂出来的,具身智能要靠海量3D交互数据,而现实世界的数据采集成本太高了。

    英伟达这步棋很精明——它不跟你卷大模型,它给你造训练大模型需要的”场地”。你用不用它的GPU跑模型另说,但你要想训练具身智能,它的仿真工具链几乎是绕不开的。

    目前没有看到Lyra 2.0开源的消息,但英伟达过去在研究方向上有开放的传统,后续会不会放出来让社区用,值得盯着。


    对于做具身智能的团队来说,这类工具的价值在于缩短迭代周期。以前一个场景要扫好几天,现在一张图几分钟出结果,测完不行马上改,迭代速度快了不止一个量级。

  • Google I/O 2026明天开幕:Gemini 4.0、XR眼镜和Aluminium OS一次看完

    明天(5月19日)凌晨1点,Google I/O 2026就要开幕了。这场在加州山景城Shoreline圆形剧场举办的大会,今年把全部火力集中到了AI上——官方直接放话,主题演讲就讲两件事:最新的Gemini模型更新,以及智能体编程(agentic coding)。

    有意思的是,Google在5月12日的Android Show上已经把平台类消息全放完了,所以这次I/O完全不给别的新闻留活路,就是要让你盯着模型和硬件看。

    Gemini 4.0,这次能打吗?

    行业里普遍预计Google会在本届I/O正式推出Gemini 4.0。这个数字命名很有意思——跳过了3.5、3.8这些中间版本,直接上4.0,摆明了是要跟Claude Opus 4.7和GPT-5.5正面刚。

    核心看点只有一个:Gemini 4.0在GPQA基准测试上能不能摸到Claude Mythos Preview的94.6%水平。如果能,Google这波就拿下了当周AI行业的叙事主导权。

    除了纯性能,这次Gemini的Workspace集成和智能体任务可靠性也是重点。企业用户不在乎你跑分多少,只在乎这东西能不能稳定帮我干活。

    Android XR眼镜终于要见了

    Google的XR眼镜这次真的要亮相了。已确认的硬件合作伙伴包括三星、Warby Parker、Gentle Monster和XREAL。产品规划里有一款无显示屏版本,靠语音调用Gemini交互,不用抬手不用看屏幕,问就行。

    这东西2026年就要上市,比Meta雷声大雨点小的Avocado模型靠谱多了——至少眼镜是实打实的硬件,你能摸到。

    Aluminium OS:ChromeOS的接班人

    这个比较意外。Google副总裁Sameer Samat已经公开确认2026年推出Aluminium OS,定位是ChromeOS的替代系统,面向消费级笔记本市场。

    泄露出来的16分钟上手演示显示,这系统长得像Android的桌面版——底部有Dock栏,支持虚拟桌面,还能通过「Link to iOS」应用跟iPhone互联。对,Google也在打跨设备协同的主意,跟苹果的生态封闭正好反着来。

    对企业用户意味着什么

    预期会同步发布Google Cloud Agentic Toolkit,包含扩展API、明确定价细则和Workspace深度集成。企业要是想用Google的智能体工具,这次应该能拿到一份完整的路线图和价目表。

    对国内做AI应用层的公司来说,Gemini 4.0如果真达到了Claude级别的性能,那模型层的竞争格局又要变。你现在押注的API供应商,半年后可能就不是最优解了。


    为什么这场发布会值得熬夜看

    2026年5月被认为是AI发展史上最繁忙的两周之一,而Google I/O是这波高潮的正式 opening。如果Gemini 4.0表现达到预期,Anthropic和OpenAI苦心经营大半年的叙事优势可能被直接动摇。

    甚至连Meta都推迟了下一代模型Avocado的发布,明说要避免被I/O的新闻热度淹没——你想想,能让竞争对手主动让路的大会,值不值得关注?