分类： AI资讯

聚焦前沿人工智能动态，速览行业热点、技术突破、产业风向与实用 AI 干货，紧跟科技潮流，第一时间掌握 AI 最新趋势。

教皇要发AI通谕了，Anthropic联创受邀站台

5月25日，梵蒂冈要干一件135年来没干过的事。教皇良十四世（Pope Leo XIV）将发布其首封通谕《Magnifica Humanitas》（壮丽人性），主题只有一个：人工智能时代如何保存人的位格。签署日期特意选在5月15日，正好是135年前教皇利奥十三世签署《新事（Rerum Novarum）》的纪念日——那份文件是天主教回应工业革命、确立劳工权益保护的核心社会训导。

把这两件事放一起看，梵蒂冈的意图再明显不过：AI就是这一轮的”工业革命”，机器正在重新定义劳动价值、知识权威和组织管理逻辑，教会得说话。

让这件事真正有意思的是发布会嘉宾名单

Anthropic联合创始人、AI可解释性研究负责人Christopher Olah将出席并发言。梵蒂冈明确在找技术研究者，而不只是伦理学家或监管官员，来参与这场讨论。Olah的研究方向是理解神经网络内部运作机制——用教会的话说，这叫”理解灵魂”。

Anthropic曾被美国国防部列为”供应链风险”，原因是他们拒绝让Claude用于致命自主武器；这次和梵蒂冈同台，进一步凸显了他们在AI军事应用上的反对立场。

梵蒂冈想要什么

通谕不是监管规则，教皇没有执法权。它的作用是给技术秩序提供道德语言：当硅谷讨论的是”模型能力””商业化路径””用户增长”时，梵蒂冈把问题拉回到”人能不能被系统替代””自动决策的责任归谁””弱者在这场变革里有没有话语权”。

AI公司可以不在乎梵蒂冈说什么，但他们不能不在乎社会情绪。欧盟AI法案、美国CAISI预部署评估协议、各国对深伪内容的立法，这些硬规则背后都有软性的社会共识支撑——而宗教机构、哲学界、社会学界，正是塑造这种共识的重要力量。

技术研究者为什么愿意去

Olah去梵蒂冈，不是去接受祝福，而是去把”AI可解释性”这件事放进公共讨论。Anthropic一直主张，AI系统应该是可理解、可问责的，而不是黑箱。这个主张和天主教对”人格完整性”的强调，在底层逻辑上是通的：人都得搞清楚系统在做什么，才能不被系统异化。

这件事也给AI行业提了个醒：技术讨论的桌子，不只是模型公司、监管机构、资本方三方能坐，神学家、伦理学家、社会学家也可以坐上来。而且他们手里握着的，是几千年来关于”人是什么”这个问题的思考积累。

教会不写代码，但教会问的那句”这个系统里人还在吗”，可能是未来AI治理里最难绕过的问题。

📎 原文来源：教宗首封通谕谈AI：Anthropic联合创始人同场，真正的信号是什么

2026年5月20日
Cursor发布Composer 2.5：不换底座追上Opus 4.7，成本仅1/10

Cursor这次真的被我急了。过去几个月，Claude Code抢走了大量开发者注意力，Anthropic那帮人做的编程助手不仅能力强，还能以Cursor根本拿不到的价格直接服务用户。相当于Cursor一边和Claude Code竞争，一边还得向Anthropic付钱用他们的模型——这生意怎么算都别扭。

5月18日，Cursor扔出了Composer 2.5。有意思的是，他们没换底座模型，仍然用着月之暗面的Kimi K2.5，但把85%的计算预算全部砸进了后训练。训练数据量是上一代的25倍，强化学习轮次拉满。结果在SWE-Bench Multilingual上拿到79.8%，和Claude Opus 4.7的80.5%几乎贴着跑。

成本才是真正的杀手锏

Composer 2.5每百万输入token收费0.50美元，输出2.50美元。达到同样性能，OpenAI和Anthropic的竞品要花差不多10倍的钱。Cursor自己做的effort curve显示，用不到1美元的单任务成本就能在CursorBench v3.1上拿到63%的成绩，而Opus 4.7和GPT-5.5得花好几美元才能摸到这个线。

三个关键技术改进

Cursor搞了三个关键改进。第一个是带文本反馈的定向强化学习——模型跑长任务时，不是等整个任务结束才给奖励信号，而是在出错的地方直接插入提示（比如工具调用失败时提醒”Available tools…”），让模型立刻知道哪步做错了。

第二个是大规模合成数据，用”功能删除”法生成训练样本：从可运行代码库里删掉某个功能，让模型重新实现，用测试通过与否作为奖励信号。

第三个是Sharded Muon优化器，分布式跑Newton-Schulz正交化，1T参数模型单步优化只需0.2秒。

马斯克确认用Colossus 2训练

马斯克在推特上转发了Composer 2.5的发布，还透露这模型部分跑在Colossus 2超算上训练。Cursor已经宣布下一代模型要用Colossus 2的百万H100等效算力，计算量是现在的10倍。按照这个节奏，Anthropic和OpenAI在编程模型上的定价优势，可能撑不了太久。

AI编程工具市场正在分裂成两个阵营：一边是模型厂商自己做工具（Anthropic的Claude Code、OpenAI的Codex），另一边是独立工具厂商（Cursor、Warp、Zed）。独立厂商的命门是上游模型依赖，Cursor这次证明了一件事：你不一定要自研底座模型，后训练+合成数据+强化学习这套路，足以在垂直场景追平顶级模型。

📎 原文来源：不换 Kimi 底座，1/10 成本追平 Opus 4.7？Cursor 用 Composer 2.5 反击 Claude Code

2026年5月20日
从少年黑客到铁穹研究员，他融了2800万美元教AI识别钓鱼邮件

Shay Shwartz少年时期靠黑客技术谋生，16岁那年失手被抓，在法庭上他意识到自己的网络安全才能可以用来防御攻击，而不是发起攻击。此后他一路打怪升级，在以色列精英国防和情报部门干了十年，参与了铁穹项目的相关研发工作。

Ocean AI创始团队（来源：Ocean / TechCrunch）

AI把钓鱼攻击的门槛踩碎了

过去只有高度成熟的黑客才能发起精准的鱼叉式钓鱼，因为要针对特定目标做大量调研，费时费力，能盯上的人很有限。AI出来之后，整个流程被自动化了——大语言模型可以批量采集公开信息，几秒钟生成针对某个人的高度定向钓鱼邮件，规模和精度都不是一个量级的。

“我可以指示大语言模型去了解你的具体信息，大量采集公开信息，生成针对你的高度定向钓鱼攻击。”Shwartz对TechCrunch说。

Ocean怎么做邮件安全

Shwartz认为，传统供应商（Proofpoint、Mimecast）和新兴玩家（Abnormal Security）能检测常规钓鱼攻击，但对付AI驱动的定向攻击需要不同的思路。

Ocean的做法是用小型语言模型去全面分析每封 incoming 邮件的上下文，识别欺诈和冒充行为，理解发件人的意图，再结合用户所属组织的具体场景做判断。Shwartz打了个比方：就像每个门口都有守卫，每封邮件进来都要被盘问一遍。

目前Ocean每月为Kayak、金士顿科技、Headspace等客户审查数十亿封邮件。模型体量小，速度快，能在邮件到达用户收件箱之前完成判断。

2800万美元，Lightspeed领投

这轮融资由Lightspeed Venture Partners领投，Picture Capital和Cerca Partners跟投。天使投资人阵容也很豪华：Wiz联合创始人兼CEO Assaf Rappaport，以及近期以77.5亿美元被ServiceNow收购的Armis联合创始人Yevgeny Dibrov和Nadir Izrael都参与了。

Ocean之前一直在隐身模式，现在正式亮相，时机挑得挺准——AI钓鱼攻击的量级正在指数级攀升，企业邮件安全是个真实且正在扩大的痛点。

📎 原文来源：From teen hacker to Iron Dome researcher, this founder raised $28M to fight AI phishing – TechCrunch

2026年5月20日
Google I/O 2026全记录：Gemini 3.5、AI搜索和智能眼镜全部到位

Google I/O 2026的主题只有一个：把Gemini塞进你数字生活的每一个角落。这场发布会5月19日开幕，整整两天的议程里，几乎没有哪个产品没被AI重新做一遍。

搜索的”十个蓝色链接”时代正式结束

搜索率先被改造。新搜索框支持长对话式查询，还能给出AI驱动的查询建议，你甚至可以往搜索框里直接拖文档、图片、视频和Chrome标签页。AI Overviews（AI概览）的月活已经摸到25亿，对话式搜索模式的月活也有10亿。

信息代理（information agents）会在后台7×24小时帮你跑任务，生成式UI即时生成交互式视觉内容，背后由Gemini Flash 3.5驱动。出版商的日子估计不太好过了——referral流量还会继续掉。

Gemini Flash 3.5驱动的搜索，已经不再是”搜完给你十个链接”的逻辑，而是直接帮你把事情做完。

Gmail现在能跟你对话了

Gmail Live语音交互模式在I/O上亮相，直接说话就能查邮件、提取行程、找学校通知。不用再盯着列表一页页翻。Workspace这边还有个AI图像生成应用叫Google Pics，支持点击图片局部标注修改需求，不用把提示词全部重写一遍，背后跑的是Gemini和Nano Banana 2模型。

Gemini Spark：常驻后台的AI代理

最值得一提的是Gemini Spark。这不是你叫它才动一下的聊天机器人，而是一个常驻后台的AI代理，能自动写完邮件、生成学习指南、监控订阅费用，还能对接Workspace、Canva、OpenTable这些第三方应用。

硬件：XR眼镜合作款全部亮相

Android XR眼镜的合作款全部亮相——三星、Gentle Monster、Warby Parker的版本都出来了，计划2026年年内发布。谷歌自研的Project Aura眼镜也更新了，计算单元更强，加了指纹解锁，还有新的充电盒设计。

Wear OS 7也有更新，加入了类似iPhone的”实时更新”功能，手表上能同步快递、赛事比分等动态信息，还能查看AI代理的自动化任务进度。

定价：Ultra订阅拆分两档

谷歌把AI订阅Ultra拆成了100美元/月和200美元/月两档，200美元那档包含Project Genie世界模型的访问权限。这个定价明显在对标OpenAI Pro，谷歌这次是真的在全栈铺开，而不只是做个 benchmark 冠军。

📎 原文来源：Google I/O 2026: All the news and announcements – The Verge

2026年5月20日
谷歌搜索亲手埋掉了十个蓝色链接，25年的老界面彻底变了

“十个蓝色链接”——这个词在互联网上活了25年，从谷歌1990年代把搜索框推向大众开始，就是这个样子。输入关键词，吐出来一排蓝色超链接，点进去自己找答案。这套逻辑所有人习以为常，直到2026年5月19日谷歌I/O大会，它宣布：这个时代结束了。

新搜索框是这次改造的核心。谷歌说这是搜索框自诞生以来最大的一次改动。它不再只是一个输入框了——能自动扩展长度来容纳长对话式查询，内置AI驱动的查询建议（不是简单的自动补全，而是理解你的意图来帮你构建更复杂的问题），而且你不需要在搜索前选择”要用AI模式还是普通模式”，系统自己判断。

谷歌慕尼黑总部（图片来源：TechCrunch）

信息代理：谷歌提醒的进化版

2003年谷歌推出过”谷歌提醒”（Google Alerts），关键词有新结果就发邮件通知你。那个服务现在还在，但早就不是人们获取信息的主要方式了。

这次的新东西叫”信息代理”（information agents），背后的逻辑是一样的——追踪变化、推送通知——但能力强了太多。你可以让一个代理7×24小时在后台跑，用你自定义的参数监控某个行业的股市动向，它不只是发现变化，还能理解变化的意义，汇总之后通知你，附带来源链接和进一步查看的信息。

谷歌搜索负责人Liz Reid在发布会上举了个例子：你可以设置提醒，用非常具体的参数追踪某个特定行业的股票市场动向，代理会为你制定监控计划，包括它需要访问的工具和数据——比如我们的实时金融数据。然后它会持续追踪这些变化，在条件满足时通知你。

生成式UI：搜索结果变成交互式网页

另一个有意思的更新是”生成式UI”——根据用户的问题，即时生成动态布局的交互式视觉内容。比如你问关于黑洞的问题，搜索结果不是一段文字，而是一个可以把概念具象化的交互式可视化组件，你接着问，它实时生成全新的视觉内容。

这套系统由谷歌DeepMind团队用Gemini Flash 3.5模型开发，今年夏天会免费向所有谷歌用户推出。除此之外，用户还能用自然语言指令在搜索里直接搭建自己的小应用（比如根据日历信息做膳食规划、健身追踪等），这背后是谷歌的Antigravity代理开发平台在支撑。

出版商要紧张了

这套改动有一个绕不开的副作用：出版商从谷歌搜索拿到的引流会继续大幅下降。AI概览（AI Overviews）已经让很多媒体网站的referral流量掉了不少，现在搜索结果里直接出交互式内容，用户更没有理由点链接出去了。对一些依赖广告的媒体来说，这可能会是最后一根稻草。

谷歌这边倒是不担心，AI概览的月活已经突破25亿，去年推出的对话式搜索模式月活也过了10亿。用户用脚投票，答案直接在搜索页上给到，何必再跳一次。

搜索这件事的本质正在发生变化——从”帮你找信息”变成”帮你把信息消化好直接给你”。这个过程里，用户省了事，但整个内容生态的流量分配逻辑也被重新洗牌了。出版商适应得过来吗？今年夏天见分晓。

📎 原文来源：Google Search as you know it is over — TechCrunch

2026年5月20日
OpenAI上线图片溯源功能，AI生成图终于有身份证了

前几天刷到一张真假难辨的图，第一反应是去翻评论区看有没有人说是AI做的。这种事现在越来越常见，AI生成的图像质量越来越高，肉眼基本看不出破绽，结果就是谣言、诈骗、假新闻配图越来越难甄别。

5月19日，OpenAI终于动了，宣布了两件事：一是接入C2PA开放标准，在图片元数据包里写清楚”这张图是AI生成的”；二是和谷歌合作，给图片嵌入SynthID不可见水印，截图、裁剪、加滤镜都抹不掉。

谷歌SynthID水印演示现场（图片来源：TechCrunch）

两套系统，互补短板

C2PA的好处是信息量大，谁生成的、用什么模型生成的，都能写进去。问题是元数据太容易被篡改，有人故意删掉就白搭。SynthID正好反过来，水印嵌在像素层，抗干扰能力强，但能携带的信息有限。

OpenAI的说法是：水印在截图之类的转置操作里更耐用，元数据能比单独的水印提供更多信息，两个一起上，可靠性比单用任何一层都高得多。

一个公开验证工具正在预览

光有水印不够，得让用户能用才行。OpenAI在做的验证工具，上传一张图就能检测有没有C2PA标识或SynthID水印，初期只支持自家的DALL·E等模型生成的图像，但OpenAI说希望未来能扩展到其他公司的AI工具。

这件事的意义不只是”OpenAI给自己打标记”。作为头部玩家，OpenAI同时支持C2PA和SynthID，等于在推整个行业往统一溯源标准上走。不然每家各自为战，用户要装一堆检测工具，最后还是一地鸡毛。

目前只管自家图片

有个现实的限制：这两套保护措施只覆盖OpenAI自己生成的图片。网上那些用Stable Diffusion、Midjourney或者其他野路子公司工具生成的图，暂时还不归它管。所以这套方案目前最大的作用是确保OpenAI”不当帮凶”，而不是一口气解决整个AI假图问题。

不过方向是对的。溯源这件事，不做就永远没有，做了至少有个起点。等覆盖的模型多了、用户习惯用验证工具了，AI生成内容的透明度才能真正提上来。

📎 原文来源：OpenAI is making it easier to check if an image was made by their models — TechCrunch

2026年5月20日
Google把20年街景数据喂给了Genie，AI现在能模拟你家门口的街道了
你有没有在Google Maps的街景里「逛」过别人的 neighborhood？把那个小黄人往巴黎某条街上一扔，看看酒店是不是在安全的地段。Google现在想把这件事变得不止是「看看」，而是让你真正走进去、改天气、看暴风雪里的同一条街是什么样子。

5月19日的Google I/O大会上，DeepMind宣布把Street View的数据接入Project Genie——Google的通用世界模型。简单来说，Genie可以根据文字或图片提示，生成可交互的游戏式三维环境。现在加上街景，它生成的就是真实世界的地方。

Genie接入街景数据后，可生成纽约街景的交互式模拟（图源：TechCrunch）

为什么这件事有意思

DeepMind研究员Jack Parker-Holder举了一个很具体的例子：一个即将部署到伦敦的机器人，那边常年见不到什么太阳。用Genie，他们可以模拟阳光从维多利亚式房屋上反射下来的罕见场景，这样机器人真的遇到时就不会「懵掉」。

「你可以说，我要去纽约，但不是这个季节，是下雪的时候。我想看看那条街在下雪时是什么样子。」

街景数据积累，Google干了20年。背着摄像头的小车和塞了相机的背包，在全球110个国家和七大洲拍了超过2800亿张图片。这些数据的价值，过去主要体现在地图产品和广告上，现在DeepMind找到了新用法。

不只是玩游戏

Genie 3去年8月开放了研究预览，今年1月向美国的Google AI Ultra订阅用户开放。它的目标应用场景有三个：教育、游戏、机器人训练。接上街景之后，机器人训练这个场景立刻变得很实。

Waymo已经在用Genie的模拟器来训练无人驾驶汽车应对「极罕见事件」——比如龙卷风，或者一头大象突然出现在路上。以前这种场景只能靠人工合成，现在有了街景作为基底，模拟出来的环境至少地理位置是真实的。

和Waymo自己的模拟器相比，Genie的优势在于视角。Waymo的模拟都是从车载摄像头角度看的，而街景数据可以切换到任意视角——机器人视角、行人视角、甚至无人机视角。
- 2800亿张街景图片覆盖全球110个国家
- Waymo已用Genie模拟龙卷风、大象等极端场景
- 支持任意视角切换（车载/行人/机器人/无人机）
- 教育、游戏、机器人训练三大目标场景
还差在哪里

坦率说，现在的效果还没到「以假乱真」的程度。Google团队给我看的样片，包括我以前住过的一个街区的海底版本，识别度很高，但画质还是电子游戏水准，不是照片级真实。

更大的问题是物理规律。现在的Genie模型还没有真正理解因果关系——比如在一个约书亚树国家公园的雪地场景模拟里，跑过去的人直接穿过了仙人掌和灌木丛。物理规则不是硬编码进去的，模型是通过被动观察自己「悟」出来的，这个过程还需要时间。

「这类模型在准确度和质量上，可能比视频生成落后6到12个月。但我认为这是可以解决的。」——Jack Parker-Holder

对比一下，Google自己的图像生成器Nano Banana已经能在信息图里生成完美的文字，视频生成器Veo也理解了纸船会跟着水流漂、烟会在空气中散开这些物理常识。Genie要追上这个水平，还得再跑一阵。

目前，Street View in Genie已经向部分美国Ultra用户开放，接下来几周会逐步扩展到全球Ultra用户。DeepMind的产品经理Diego Rivas提醒说，这还是一个实验性的东西，准确度方面还有很多要改进的地方。

但方向是清晰的。Google Maps的前总监Jonathan Herbert说，他们很早就在想怎么把地图数据用在新形式的AI研究上。Genie接入街景，是这个世界模型第一次真正摸到「真实世界的地基」。接下来会发生什么，值得盯着看。

📎 原文来源：TechCrunch – Google’s Genie world model can now simulate real streets with Street View
2026年5月20日
Andrej Karpathy官宣加入Anthropic，OpenAI联合创始人为何选择竞对
5月19日，AI圈被一条推文炸开了锅——Andrej Karpathy在X上官宣了自己加入Anthropic的消息。这位OpenAI的联合创始人、特斯拉前AI负责人，选择在这时候加入Claude的缔造者，让不少人感到意外。

「我认为LLM前沿领域接下来的几年会特别关键。我很兴奋能加入这里的团队，重新回到研发一线。」——Andrej Karpathy

他到底是谁

karpathy在AI圈子里的分量，不需要太多介绍。他是OpenAI的创始成员之一，早年深耕深度学习和计算机视觉，2017年被马斯克挖去特斯拉，一手搭建了FSD（全自动驾驶）和Autopilot的核心团队。2022年离开特斯拉后，他短暂回归OpenAI一年，2024年又出来创立了Eureka Labs，想用AI助手做教育。

他还有一门非常出名的在线课程《Neural Networks: Zero to Hero》，教学生从零开始用代码实现神经网络，在YouTube上有一大批忠实观众。可以说，他是少数几个既能搞懂大模型理论、又能真正把大规模训练跑起来的人。

Andrej Karpathy（图源：San Francisco Chronicle / Getty Images）

在Anthropic做什么

Karpathy本周正式入职Anthropic，在Nick Joseph的带领下专注于预训练（pre-training）方向。预训练是构建前沿模型最烧钱、最吃算力的阶段，直接决定了Claude的核心知识和能力上限。

Anthropic方面还透露，Karpathy会着手组建一个专门的团队，研究方向是用Claude来加速预训练研究本身。这个思路很清晰——用AI来研究AI，用更强的模型来帮自己训练下一代模型，形成研发飞轮。

为什么是现在

Anthropic在这个时间点挖来Karpathy，信号很明确：他们相信AI辅助的研发，而不仅仅是堆算力，才是接下来和OpenAI、Google竞争的关键。能同时懂LLM理论和大尺度训练实践的研究者，圈子里掰着手指头数得过来，Karpathy是一个。

至于他创立的Eureka Labs，目前还没有进一步的消息。Karpathy在自己的帖子里也提到，他对教育的热情不会消失，未来会找时间继续这件事。
- OpenAI联合创始人身份，深度参与GPT早期研发
- 特斯拉FSD团队缔造者，大规模AI落地经验
- 顶级AI教育者，Zero to Hero课程影响数十万开发者
- 唯一同时深度参与过OpenAI和特斯拉AI全栈的领军人物
同一天，Anthropic还宣布了另一位重磅人才的加入：网络安全老将Chris Rohlf加入了前沿红队（frontier red team）。Rohlf在Yahoo的”The Paranoids”安全团队成名，后来在Meta待了六年，职业生涯跨度超过20年。他在X上写道：「我们有一个真正的机会，用AI大幅改善网络安全」，并认为此刻加入Anthropic是正确的选择。

两则人事消息同一天公布，怎么看都像是Anthropic在Google I/O期间的一次精准人才公关。不管是巧合还是刻意为之，Anthropic正在用行动告诉外界：他们不仅在模型能力上追，在人才吸引上也一点不虚。

📎 原文来源：TechCrunch – OpenAI co-founder Andrej Karpathy joins Anthropic’s pre-training team
2026年5月20日
MIT发布2026年十大AI趋势：人形数据、智能体协作、中国开源押注

MIT发布2026年十大AI趋势：人形数据、智能体协作、中国开源押注

MIT Technology Review首次发布年度AI趋势清单

MIT Technology Review在2026年4月发布了首次年度AI趋势清单，从人形机器人训练数据、AI加速诈骗、武器化深伪，到多Agent协作与中国开源押注，10个正在发生的AI趋势逐一解析。这份报告旨在剔除行业泡沫，精准识别那些具有实质影响力的技术、新兴趋势与强大运动。

人形机器人训练数据成新石油

就像人类文本成为大语言模型的训练数据一样，人类运动视频正被大规模收集用于训练人形机器人。从工人重复完成任务的”训练中心”，到被海外陌生人远程操控的机器人，这是一项没有成功保障的奇特尝试。这个方法是否有效，业界还在观望。

大语言模型仍有巨大挖掘空间

大语言模型曾风靡全球，现在所有AI从业者都在追逐下一个突破性技术。虽然容易实现的应用场景已经基本被开发，但大语言模型不会退出舞台。这项技术仍有巨大的挖掘空间，LLMs+的时代才刚刚开始。

AI正在降低诈骗分子和黑客的准入门槛，让他们攻击目标的速度更快、成本更低、操作更容易。与此同时，武器化深度伪造的威胁已经成为现实。

世界模型让AI理解物理世界

AI公司希望构建能够理解外部世界的系统。如果这一目标实现，将克服大语言模型的局限性，帮助AI进入物理环境。这个世界模型（World models）被认为是下一代AI系统的关键方向。

智能体协作取代单打独斗

第一代AI智能体只能运行浏览器或编写代码片段，且只能单独行动。接下来将出现能够协作完成更复杂目标的智能体团队。多Agent协作（Agent orchestration）将是2026年AI应用落地的重要方向。

中国开源模型赢得全球开发者好感

免费开放前沿模型让中国实验室获得了全球信誉和开发者的广泛好感。这种方式是否具备财务可持续性尚不可知，但全球开发者已经在基于中国的基础模型进行开发。中国在开源AI领域的布局正在产生实质影响力。

AI科学家的想象与现实

学术界和企业都在开发能够自主完成研究任务、与科学家作为真正协作伙伴共事的智能体。有人认为这些AI合作科学家未来能够达到诺贝尔奖级别的研究高度。人工智能科学家（Artificial scientists）如能实现，将彻底改变科研范式。

与此同时，全球范围内正在形成一股强大的AI反对浪潮。从保守派到自由派，从艺术家到工会，活动人士的势头正在上升，并且已经开始取得小的胜利。AI的快速发展正在遭遇越来越强的阻力。

📎 原文来源：10 things that matter in AI right now – MIT Technology Review

2026年5月20日
谷歌I/O 2026倒计时：Gemini轻量升级，AI眼镜重启硬件线

谷歌I/O 2026倒计时：Gemini轻量升级，AI眼镜重启硬件线

2026年谷歌I/O开发者大会将于5月19-20日举行

2026年谷歌I/O开发者大会今天（5月20日）正在加州山景城举行。这次大会的核心看点很明确：新一代Gemini模型和Android XR智能眼镜。距离上次谷歌发布Gemini 3.1 Pro已经过去三个月，业界对新版本的期待值拉满。

Gemini模型不会跨越式迭代

综合多方消息，谷歌这次大概率不会发布Gemini 4.0。按照约3-4个月的迭代节奏，上一代Gemini 3是2025年11月发布的，到现在才半年。更可能的情况是推出Gemini 3.2或3.5，性能大致与OpenAI近期发布的GPT-5.5相当。

新一代模型的技术突破方向值得关注——它侧重Agent任务能力提升，而不是推理能力。具体来说，新模型预计将大幅提升上下文处理能力，并着重优化端侧轻量化表现。这意味着AI功能能够适配更多中低端安卓机型，真正服务于谷歌庞大的移动生态。

谷歌一直想把Gemini更深入地融入其生态系统。这次大会上，我们可能会看到Gemini从独立App升级为安卓底层的原生能力。

智能眼镜产品线重启

智能眼镜是本届大会最受瞩目的硬件产品。距离谷歌首次推出Google Glass已过去十余年，现在谷歌正与三星、Gentle Monster和Warby Parker合作开发两款AI眼镜。

一款是类似Meta Ray-Ban的无屏AI眼镜，主打轻量化与日常佩戴，支持免提唤醒Gemini助手。另一款则更为前沿，配备镜片内显示技术，可将导航、实时翻译等信息直接投射在用户视野中。两款眼镜均基于Android XR操作系统。

生态整合比产品更新更关键

除了具体的产品和模型，本次大会还将展示谷歌在AI生态领域的战略布局。Android 17系统有望迎来变革，Beta版或将公布，开放Gemini Nano端侧AI能力，支持第三方开发离线AI应用。

传闻中的”Gemini Spark”Agent平台可能会在大会上亮相。这个系统旨在主动运行、处理跨应用和服务的任务，而不是等待用户指令。它能够访问跨应用、浏览会话和用户活动的数据，这将是AI从工具升级为系统层的关键一步。

谷歌母公司Alphabet此前预计2026财年资本支出将达到1750亿至1850亿美元，这些资金将重点投向大规模数据中心扩建与专用AI算力部署。重金押注AI，谷歌亟需证明其庞大的AI投入能够通过搜索广告、云服务和订阅带来回报。

📎 原文来源：谷歌开发者大会倒计时！Gemini模型或迎轻量升级智能眼镜产品线有望重启

2026年5月20日

分类： AI资讯

让这件事真正有意思的是发布会嘉宾名单

梵蒂冈想要什么

技术研究者为什么愿意去

成本才是真正的杀手锏

三个关键技术改进

马斯克确认用Colossus 2训练

AI把钓鱼攻击的门槛踩碎了

Ocean怎么做邮件安全

2800万美元，Lightspeed领投

搜索的”十个蓝色链接”时代正式结束

Gmail现在能跟你对话了

Gemini Spark：常驻后台的AI代理

硬件：XR眼镜合作款全部亮相

定价：Ultra订阅拆分两档

信息代理：谷歌提醒的进化版

生成式UI：搜索结果变成交互式网页

出版商要紧张了

两套系统，互补短板

一个公开验证工具正在预览

目前只管自家图片

为什么这件事有意思

不只是玩游戏

还差在哪里

他到底是谁

在Anthropic做什么

为什么是现在

MIT发布2026年十大AI趋势：人形数据、智能体协作、中国开源押注

人形机器人训练数据成新石油

大语言模型仍有巨大挖掘空间

世界模型让AI理解物理世界

智能体协作取代单打独斗

中国开源模型赢得全球开发者好感

AI科学家的想象与现实

谷歌I/O 2026倒计时：Gemini轻量升级，AI眼镜重启硬件线

Gemini模型不会跨越式迭代

智能眼镜产品线重启

生态整合比产品更新更关键