博客

拿了诺贝尔奖18个月后，他融了21亿美元要造AI设计的药

Demis Hassabis拿诺贝尔奖才过去一年半，他创办的AI制药公司Isomorphic Labs就拿到了21亿美元融资。这笔钱来自Thrive Capital领投，阿布扎比主权基金MGX、新加坡淡马锡、英国主权AI基金都跟投了——注意，三分之二是主权基金。这不是普通的VC轮次，更像是一场国家级战略押注。

AlphaFold解决了蛋白质折叠问题，而IsoDDE是AlphaFold谱系中第一个在工业规模上解决药物设计问题的系统。

从诺贝尔奖到21亿美元

2024年11月，Hassabis在斯德哥尔摩领走了诺贝尔化学奖。AlphaFold发布四年来被190个国家超过200万科学家使用，预测了生物学中几乎所有已知蛋白的结构。但科学荣誉和商业落地之间隔着一条鸿沟——Hassabis用18个月和21亿美元试图跨过去。

Isomorphic的核心技术叫IsoDDE（Isomorphic Drug Design Engine），今年2月刚公布。它在蛋白质-配体结构预测基准测试上的性能是AlphaFold 3的两倍。传统物理方法算一个结合亲和力需要几周的计算时间和一整个药物化学团队，IsoDDE能在更高精度下以极低成本完成同样的工作。

第一个吃螃蟹的人？

Isomorphic计划在今年年底前把自己内部研发的首个AI设计药物送进人体临床试验。如果成功，它将是第一家把AI原生药物从自有管线推进到一期临床的公司。目前公司已与诺华、礼来、强生达成多靶点战略合作，三家的预收入合同总额估计超过20亿美元。

不过前车之鉴不少。Recursion Pharmaceuticals花了十亿多美元十年时间，至今没有一个商业化药物；BenevolentAI市值从20亿缩水了四分之三；Exscientia的AI设计候选药在一期都没过完就被终止了。FDA到目前为止批准的纯AI设计药物数量是零。

进入一期的药物最终能上市的几率大约只有十分之一。未来18个月将决定这个雄心是在斯德哥尔摩再次实现，还是只停留在又一份融资PPT里。

为什么主权基金蜂拥而入

这轮融资最值得玩味的信号不是金额大小，而是投资人结构。阿布扎比、新加坡、英国的主权基金同时入场，说明各国政府已经把AI制药当成战略赛道来布局了。21亿美元给Isomorphic提供了大约十年的跑道——不需要再融资就能同时推进合作项目和自研管线。

说白了，这是一场全行业最高赌注的博弈：赌赢了，Isomorphic会成为医药研究领域最有价值的资产；赌输了，这就是有史以来最昂贵的科学实验。不管结果如何，AI改变新药发现这件事本身已经不可逆转了。

📎 原文来源：Isomorphic Labs Raises .1 Billion Series B for AI Drug Discovery

2026年5月18日
Meta的Avocado熟了吗？内测多个变体模型，发布却一拖再拖

Meta的下一代大模型Avocado，这个名字听着就挺接地气，但它的开发进度可一点都不”熟”。本来计划今年3月发布，结果内部测试发现性能跟不上Google、OpenAI和Anthropic的顶尖模型，发布时间至少推迟到了今年5月——也就是眼下这个月。

多个变体同时测，Meta自己也没拿定主意

从Meta AI的界面里挖出来的内部信息显示，他们正在同时测试好几个不同版本的Avocado。有个9B参数的小型版本，叫Avocado 9B；还有一个带”agent”和”sub-agent”标签的变体，叫Avocado Mango，支持图像生成，算是个多模态版本。

除此之外，还有Avocado TOMM（”Tool of many models”，基于Avocado的工具调用版本）、Avocado Thinking 5.6（最新版的思考模型），以及一个只做文本对话的版本叫Paricado。多个不同尺寸的候选版本同时测试，看起来Meta自己也还在纠结，到底哪个配置最终能端上台面。

内部流出的系统指令显示，Avocado能调用各种内部工具，某些情况下能解出早先Llama模型搞不定的复杂数学题——只不过这些题，Gemini 3和GPT 5早在几个月前就已经能解了。

性能不够，Gemini来凑

这件事已经严重到了什么程度？Meta的AI领导层据传已经讨论过临时授权使用Google的Gemini技术。目前Meta AI内部已经在做A/B测试，把一部分请求路由到Gemini模型上跑。这种做法说明，Meta在Avocado成熟之前，打算用外部模型来填补能力缺口。

对于一家砸了重金要做”世界顶级AI”的公司来说，要靠竞争对手的模型来撑场面，这多少有点尴尬。但换个角度看，这种务实的做法也能理解——总不能让用户一直用着落后于时代的Llama 3等模型吧。

从开源到闭源，Meta的AI路线大转弯

Avocado另一个值得关注的动向是，Meta正在告别过去几年力推的开源路线。Avocado预计会以闭源形式发布，只提供API和托管服务，不再像Llama系列那样开放权重。这个转弯不可谓不大，背后自然是CEO扎克伯格对”超级智能”的执念在驱动。

对于Facebook、Instagram和WhatsApp上那几亿Meta AI的用户来说，Avocado即便追不上前沿竞品，至少也会比现在基于Llama的回复有明显提升。问题是，Meta会不会选择一个相对低调的时机悄悄上线这些改进，还是非要等一个够排场的发布时刻？目前还没有人能给出准信。

截至本文发布，Avocado的具体发布日期仍然没有官宣。对于关注Meta AI动向的人来说，不妨盯着点这个月的动静——毕竟，”至少5月”这个说法，留给Meta的时间已经不多了。

📎 原文来源：Exclusive: Meta tests Avocado 9B and Avocado Mango Agent – Testing Catalog

2026年5月18日
Google I/O 2026明天开幕：Android 17、Gemini Intelligence和神秘的Googlebook
Google I/O 2026终于要来了。5月19日到20日，就在明天，加州的海岸线旁边又会挤满开发者、记者和那些靠着发布会找灵感的产品经理。今年的主题一点也不神秘——AI无处不在，或者说，Gemini无处不在。

Android 17：给创作者和普通用户都上了一课

这次Android 17一口气带来了9个重大升级，其中最让人眼前一亮的是对创作者群体的重视。Google跟Meta合作深度优化了Instagram在Android上的表现，从拍摄到上传的整个管线都重新调过了，照片和视频的质量保留得比以前好得多。

还有个很实用的功能叫Screen Reactions。你录屏的时候，可以直接把自己的人像叠加在画面上，不需要绿幕，也不需要装第三方软件。这个功能今年夏天先给Pixel用户用，之后会推广到其他Android设备。对于做教程视频或者游戏实况的人来说，这算是个小而美的改进。

安全方面也有动作。Live Threat Detection现在会持续在后台监控你装的所有App，看看有没有偷偷转发短信、乱用无障碍权限或者后台窃取敏感数据的行为。Find Hub里那个”标记为丢失”的功能也升级了，以后要锁定设备，除了输PIN码还得过生物识别这一关。就算有人猜出了你的密码，没有你的指纹或脸，手机还是打不开。

银行来电spoofing保护也值得一说。系统会通过你手机里装的银行App验证来电是不是真的来自银行。目前支持的银行有Revolut、Itaú和Nubank，后面还会加更多。这种把系统层和金融App打通做安全验证的思路，确实比单纯靠用户自己辨别诈骗电话要靠谱。

Gemini Intelligence：从助手到自动化套件

如果说去年的Gemini还在追赶ChatGPT，那今年的Gemini Intelligence就是奔着”让你的手机自己干活”去的。这个套件包含了一堆自动化功能，比如Rambler——一个升级版的Gboard语音输入，它会自动把你说话时的”嗯”、”啊”、”那个”之类的filler words过滤掉，转写出来的文字干净得多。

还有个叫Autobrowse的功能，在Chrome里能帮你后台搞定那些需要在多个网站之间跳来跳去的研究任务。比如你要找某个活动最便宜的停车方案，Autobrowse会在后台帮你把多个预订网站都扫一遍，最后给你一个结果。这种”别盯着进度条了，我去帮你弄”的设计哲学，倒是挺符合大家对AI助手的期待的。

不过Gemini Intelligence的硬件门槛不低。想要完整体验，手机得有旗舰级芯片、12GB以上内存，还得支持Gemini Nano v3。首批支持的设备只有三星Galaxy S26系列和谷歌Pixel 10系列。你手里的老旗舰，哪怕是去年的型号，大概率都跑不动。Google这一手”软硬件绑定升级”，看起来颇有几分苹果的味道。

Googlebook：第一款AI原生操作系统？

今年I/O前放出的一个大招是Googlebook。这个被一些人称作”Chromebook精神续作”的新平台，核心是Gemini，很可能就是业界第一款真正意义的AI原生操作系统。硬件合作伙伴已经就位：Acer、ASUS、Dell、HP、Lenovo都会出机器。

有意思的是，Googlebook不止用Intel芯片，Qualcomm和MediaTek也会入场。这意味着续航、性能和端侧AI能力都会有明显的提升空间。至于大家念叨了好几年的Pixelbook续作，这次会不会跟着亮相，目前还没有准信。但有Googlebook这个平台在，Pixelbook回来的可能性倒是比以前大了不少。

还有一些值得盯的细节
- Android XR眼镜的具体形态应该在I/O上会有更多消息。去年只是预览，今年说不定能见到真的可以买到的产品。
- Gemini for Home已经给了早期体验用户，响应准确度和对话自然度都有提升。配套的Google Home Speaker那个带着彩色光环的小东西，估计会在I/O上正式亮相。
- Android Auto的UI改版了，用上了Material 3 Expressive的设计语言，地图也支持全屏模式和3D建筑渲染的”沉浸式导航”。
明天I/O开幕之后，相信还会有更多细节冒出来。Gemini 4.0会不会来？Android XR眼镜能不能真的买到？Googlebook的定价和上市时间是什么？这些问题，过两天应该就有答案了。对于开发者和科技爱好者来说，这届I/O的关注点已经从”又发布了什么新模型”转向了”AI怎么真正落地到日常使用的设备里”——这个转向，本身就很说明问题。

📎 原文来源：Google I/O 2026 Live Blog – Android Central
2026年5月18日
中国AI视频生成弯道超车：ByteDance和快手把美国对手甩在身后

生成式AI打了一年半，大家都盯着力大砖飞的文本模型，结果视频生成这个关键赛道，被中国团队悄咪咪做到了世界前列。金融时报刚出的报道说，开发者圈子里已经有人在私下认了：ByteDance和快手在视频生成上的进展，比美国同行快不止一步。

自家短视频库就是最好的训练场

这事说穿了也不复杂。ByteDance手里有TikTok，快手手里有快手短视频，两家加起来的用户生成内容，是任何美国AI实验室都拿不到的数据宝藏。你让Sora团队去哪搞几百亿条真人的、带标注的、多语言的短视频？ByteDance和快手不需要”去哪搞”，数据就在自家服务器上。

ByteDance推出的Seedance 2.0，快手的Kling 3.0，都是在这几百亿条视频的”喂养”下迭代出来的。美国实验室要训练视频生成模型，要么花钱买数据集（还不一定合法），要么自己拍（规模和多样性完全没法比）。中国这两家的优势，是天生的。

“中国生成式AI团队已经在视频生成这个生成式AI的关键战场，走在了美国竞争对手前面。”——金融时报报道援引开发者评论

美国实验室不是没反应，是追起来费劲

OpenAI的Sora算是美国这边名头最响的视频生成模型，但一直没大规模开放。Google的Veo也在推，但进度和效果跟Seedance、Kling比，开发者群体里已经有不少人在转向中国模型了。不是说美国模型不好，是视频生成这个任务对数据量的依赖太强，而中国公司手里的数据，是美国公司 legally 拿不到的。

还有一个容易被忽略的点：中国短视频平台上的内容，天生就是”多模态”的——视频、音频、文字评论、用户互动，全套的。用这些数据训练出来的模型，生成出来的视频在语义连贯性、节奏感、甚至”网感”上，都比只用公开数据集训练的模型要自然得多。

这事的影响比看起来大

视频生成不是”能不能让AI画会动的画”这么简单。它是通向世界模型（World Model）的必经之路——你想让AI理解物理世界是怎么运转的，先得让它能生成符合物理规律的视频。中国团队在这个方向上领先，意味着它们在”让AI理解真实世界”这个更大规模的竞赛中，已经抢到了一个有利位置。

another angle是地缘AI竞争。美国一直在想办法限制中国拿到高端GPU，但数据这个维度，它是限制不了的。ByteDance和快手用自己的用户数据训练出来的模型，不需要英伟达最新款的卡也能迭代——当然有更好，但没有的话，靠数据和算法优化也能往前走。

这个报道出来后，估计又有一波”中国AI威胁论”要冒头。但站在开发者角度，哪家的模型好用、成本低、生成速度快，就用哪家的。视频生成这个赛道，目前是中国团队在领跑，美国实验室需要加快速度了。

📎 原文来源：USA Daily Dose – Builders say Chinese AI labs lead US rivals in video era（转引Financial Times报道，记者Eleanor Olcott）

2026年5月18日
Mistral CEO喊话法国政府：别让Anthropic的Mythos碰军事代码库

欧洲AI自主化的焦虑，这次被Mistral AI的联合创始人兼CEO Arthur Mensch摆到了台面上。他在法国国会听证会上明确警告：别让Anthropic的Mythos模型扫描法国军方的代码库，这会让欧洲陷入不可逆的网络安全依赖。

AI模型不只是”工具”，它能发现漏洞、建议攻击路径

Mensch说得很直白：现代AI模型已经能编排网络攻击、检测系统漏洞、甚至给出利用建议。这不只是美国系统的能力——Mistral自己的模型、中国开发的AI模型，同样能找到Mythos能找到的那些漏洞。

那为什么偏偏盯着Anthropic的Mythos不放？因为欧盟正在跟OpenAI和Anthropic谈判，想提前拿到它们最强网络安全模型的访问权限。Mensch的警告是：一旦让你家最敏感的代码库被外国AI”扫描”过了，这依赖关系就几乎不可逆了。

“欧洲应该在AI基础设施上保持独立，而不是把最敏感的安全审查交给外国实验室。”——Arthur Mensch

Mistral的”欧洲独立”牌能打多久？

Mensch在听证会上也提到了Mistral自身的独立性问题。他说美国投资者持股不到30%，公司优先选择欧洲资本，但欧洲拿不出足够资金，才接受了部分美国投资。Mistral不打算卖身，目标是保持独立并最终上市。

目前Mistral是欧盟唯一一家开发了有竞争力大语言模型的公司。这个叙事在政治上很吃香——欧洲一直担心自己在AI竞赛中沦为附庸，既依赖美国模型，又担心中国模型的数据安全。Mensch的警告，既是为欧洲AI自主化站台，也是在给Mistral自己的政府合同铺路。

背后是更大的地缘AI博弈

这事闹得挺大。Anthropic的Mythos是专门针对网络安全场景训练的模型，能力不容小觑。如果欧盟真的让Mythos扫描成员国军事代码库，等于把欧洲最敏感的网络安全底牌交到了一家美国公司手里。Mensch说的”不可逆依赖”，指的是AI模型会通过训练数据”记住”它看过的内容——你让它在你家代码库上跑一遍，它就等于”学过”了。

类似争议在美国也有。美国国防部用AI审查军事系统，到底是提高效率还是制造新的单点故障，争议一直没停过。欧洲现在的困境是：自己没有同等水平的AI网络安全工具，但又不愿意完全依赖美国。Mistral如果能拿到政府合同，至少能给欧洲一个”自己人”的选项。

Mensch这波操作，短期看是在帮Mistral抢政府订单，长期看是在押注”欧洲AI主权”这个叙事。问题是，光有叙事不够，Mistral能不能拿出跟Mythos同等水平的网络安全模型，才是法国政府要不要听他建议的关键。

📎 原文来源：The Decoder – Mistral CEO Arthur Mensch warns France against letting Anthropic’s Mythos scan military code bases

2026年5月18日
亚马逊给搜索框加了AI助手，Alexa+能帮你自动下单了
亚马逊5月13日宣布推出”Alexa for Shopping”，一个由Alexa+赋能的AI购物助手。它直接取代了2024年推出的Rufus，升级幅度不小。

Alexa for Shopping聊天窗口界面（来源：亚马逊）

这个助手可以在移动端、桌面端、Echo Show智能显示屏上使用，支持语音和触控两种操作。你在亚马逊主搜索栏或者专用的Alexa for Shopping聊天窗口里输入问题，它就能给出定制化推荐，甚至生成专属购物指南。

接地气的购物AI

用法很接地气。你可以问”适合男性的护肤流程是什么”，也可以查”我上一次买AA电池是什么时候”。它会记住你的购物习惯、偏好和历史订单，推荐会越来越准。

亚马逊说这个助手会理解用户的习惯、偏好和购买历史，为购物过程提供连贯、个性化的协助，并且会随时间推移变得更个性化、更有用。这听起来像是个长期陪跑的购物顾问，而不只是个搜索框。

从推荐到自动执行

功能不止于推荐。它可以对比商品、追踪价格，还能为宠物食品、纸巾这类刚需品安排循环订购。你甚至可以设置一个价格阈值：”如果这款防晒霜降到10美元，就把它加入我的购物车”——到价自动加购。

最激进的功能是”Buy for Me”代买服务。它可以跳出亚马逊，去其他线上商店帮你完成选购和支付。这功能当然方便，但也引发了不少关于AI自主权和隐私的争议。

亚马逊这波操作紧跟在”Amazon Now”30分钟送达服务上线之后，明显是在把AI往购物全链路里塞。从搜索、推荐、比价、价格追踪，到跨平台代买，Alexa for Shopping几乎覆盖了购物决策的全流程。

目前只在美国上线

Alexa for Shopping目前只向美国用户开放。国内用户还得再等等——不过按亚马逊的惯例，这类功能通常会在一两年内推到全球市场。
- 取代Rufus，Alexa+全面赋能购物场景
- 支持语音+触控，跨平台使用
- 价格追踪+条件式自动加购
- “Buy for Me”跨平台代买功能引发隐私争议
📎 原文来源：Amazon launches an AI shopping assistant for the search bar, powered by Alexa+（TechCrunch）
2026年5月18日
Google I/O 2026明天开幕，Gemini 4.0和XR眼镜值得盯紧

Google I/O 2026定于5月19日至20日开幕，距现在不到24小时。主旨演讲太平洋时间19日上午10点开始，覆盖Google AI、Android、Chrome等核心更新。

这届大会的核心焦点毫无悬念是Gemini。新版本可能定名Gemini 4.0或3.8，速度和智能化程度会超过前代。Gemini现在已经深度嵌入谷歌几乎所有产品，新版本向各产品线的渗透传导方式也值得关注。

AI工具矩阵持续扩张

除了模型升级，谷歌还会展示Veo（AI视频生成）、Lyria（AI音乐创作）、Beam（三维视频会议）等工具的持续迭代成果。Gemini的笔记本功能也会进一步强化——用户可以把特定主题的参考资料集中存储，Gemini基于这个上下文直接对话，不用每次重复提供信息来源。

动态可视化生成功能也在路上，要求Gemini”展示”或”可视化”时，它能在对话界面中直接生成动态交互式模拟。这种能力的落地，意味着Gemini从”回答工具”向”演示工具”的跨越。

Gemini的笔记本功能支持与NotebookLM深度联动，后者可以把笔记本内容生成视频概览、图表等多元输出。两者分工明确：NotebookLM只以用户提供的笔记本为信息来源，Gemini则会在笔记本上下文基础上进一步检索互联网。

Android XR眼镜从概念走向量产

硬件方面，Android XR智能眼镜是重头戏。谷歌在2025年I/O大会上展示过原型，今年应该会从概念走向量产。功能包括抬头显示通知、实时语言翻译、Gemini Live AI交互。外观比初代Google Glass低调很多，但隐私争议估计还是免不了。

当前智能眼镜市场已相对成熟，Meta已经联合Ray-Ban、Oakley等品牌推出合作款。谷歌此时入局，优势在于十余年的技术积累和Android生态的天然协同。参与合作的品牌众多，最终产品价格区间预计将覆盖入门到高端多个层次。

Aluminum OS：Android与ChromeOS的合并尝试

另一个值得关注的是代号”Aluminum OS”的新操作系统，目标是把Android和ChromeOS合并为一，在笔记本电脑上运行完整的Android体验，同时保留完整的Chrome浏览体验。ChromeOS主要依赖网页应用，Aluminum OS将拥有更完整的Android应用生态。

谷歌或许会在本届大会上披露更多合作信息，甚至直接发布产品。自研Pixelbook回归的可能性，同样不能完全排除。

Android 17稳步迭代

Android 17的测试版已经出了四个版本，”应用气泡”功能（把任意应用调出为悬浮窗口）是目前的亮点。正式版预计6月至7月发布，时间节点恰好在下一代Pixel系列手机宣布之前。

明天的大会直播值得盯一下，Gemini新版本和XR硬件的正式亮相应该是确定性最高的两个看点。谷歌在AI领域全力押注的趋势不会改变，这届大会大概率是2026年AI圈最重要的发布会之一。

📎 原文来源：谷歌I/O 2026大会前瞻：AI、新系统与智能眼镜全面解读（澎湃新闻）

2026年5月18日
Perplexity不再只是搜索引擎了：Comet浏览器+Deep Research让AI直接给你做PPT
说起AI搜索，很多人第一反应是ChatGPT或者Claude。但有一家公司正在悄悄把战场从”聊天框”扩展到整个浏览器——这家公司叫Perplexity，而2026年5月，它交出了一份相当激进的进化清单。

Comet：从搜索引擎变成AI浏览器

Perplexity在2026年5月推出了Comet——一款AI原生浏览器，覆盖iOS、Android、Mac和Windows。区别于传统浏览器塞一个Copilot侧边栏的做法，Comet把AI嵌入了浏览的每一个环节：打开任何网页都能直接总结、追问，甚至让Comet在浏览器里自主执行任务。

Comet for Enterprise则面向企业用户提供MDM批量部署能力，支持集中管控和数据合规审计，适合金融分析师、法律研究团队这类需要大量案头工作的场景。

Perplexity Comet 浏览器界面

Deep Research：直接给你做PPT和电子表格

这是本次更新最重磅的部分。Deep Research升级为Claude Opus 4.5（面向Max和Pro用户），并在业界率先实现了一个关键突破——可以直接生成演示文稿、电子表格、仪表盘、网站等成品交付物，而不是返回一大段文字让你自己整理。

你可以直接说”帮我做一个分析AI代理市场的演示文稿”，Deep Research就会直接输出一份可以演示的PPT。这和大多数研究代理只返回文本的体验，完全不在一个量级。

语音模式也升级到了GPT Realtime 1.5，可靠性提升超过25%，目前已在Comet桌面版和Android版上线。更有意思的是，Perplexity的语音回答仍然附带引用来源——这是它区别于其他语音模式的独特优势。

Samsung Internet合作：数亿设备预装

Perplexity还拿下了三星这个超级渠道——Comet的代理浏览能力已集成到Samsung Internet，后者预装在数亿台设备上。这意味着Perplexity的AI能力，正在直接渗透到海量硬件的原生入口，而不是让用户主动去下载一个独立App。

Max用户还解锁了一个罕见功能：可以自选Agent使用的模型，默认Opus 4.6，也可以换成Sonnet 4.5。这在AI产品里很少见——大多数厂商都绑死自家模型，Perplexity反其道而行。

Perplexity的核心竞争力到底是什么

从产品矩阵来看，Perplexity 2026年的核心优势有三条：
- 引用 grounded 能力——这是它的基因，从搜索引擎时代就积累的优势，竞品很难短期追上
- AI原生浏览器——Comet让AI不只是问答，而是融入整个信息消费流程
- Deep Research直接交付成品——省掉中间的”读文本再整理”环节，真正做到端到端
对比一下竞品：ChatGPT胜在生态广度，Claude胜在安全与推理深度，Gemini背后有整个Google硬件生态。Perplexity则一直在”研究”这条垂直赛道上挖护城河，而且越挖越深。

📎 原文来源：What’s New in Perplexity 2026: Comet Browser, Deep Research
📎 参考来源：Perplexity Release Notes – May 2026
2026年5月18日
自动驾驶是具身智能上半场，李想让理想”造人”的时间表提前了

最近汽车圈出了一个挺有意思的判断——理想汽车CEO李想说了一句话，把自动驾驶和人形机器人放在了一条时间轴上：自动驾驶是具身智能的上半场，通用人形机器人是下半场。

这句话不是随便说说的，背后有一张非常清晰的时间表。上半场自动驾驶分三个阶段：2018到2023年是L2辅助驾驶，2023到2028年是L3，2028到2033年是L4。下半场人形机器人则是：2030到2035年达到6岁泛化能力，2035到2040年达到12岁，2040年之后接近AGI水平。

李想还做了一个预判：购买L4自动驾驶汽车的用户，和购买家庭家政机器人的用户，重合度将高达90%。这意味着上半场的感知、模型、芯片、控制能力，可以无缝迁移到下半场，形成跨场景的商业闭环。

研发组织彻底打散重编

最让人意外的是理想今年1月的研发重组。他们把按软硬件划分的传统部门全部拆掉，按”造硅基人”的逻辑重新组合。infra团队负责算力数据，对应”心脏”；基座模型团队管多模态训练，对应”大脑”；软件本体团队做Agent和工具链，对应”手脚”；硬件本体团队管芯片传感器，对应”身体”；评估团队独立评估工作质量，对应”免疫系统”。

改完之后立竿见影：智驾模型训练从每两周迭代一次，直接压缩到每天一次。过去部门之间来回扯皮的沟通成本，就这么被彻底消解了。

两款机器人已经立项

资金投入上也不含糊。2025年理想研发花了113亿，其中AI相关占一半，2026年预算120亿基本保持同等比例。5月15日上市的L9 Livis，定价50.98万元，是理想切入具身智能赛道的首款量产旗舰。

值得注意的是，理想前高管创立的至简动力，在发布会当天放出了一个视频：旗下ix和i7两款机器人全程围观新车发布会，其中一台手持理想自研的马赫M100芯片。这说明理想系的人形机器人项目，早已跑在路上了。

理想L9 Livis 具身智能旗舰SUV

李想说这是理想的第三次”逆共识”。前两次分别是2015年坚持增程而非纯电，以及聚焦家庭场景而非个人用户。现在，当行业还在讨论具身智能是否遥不可及时，理想已经把芯片、模型、操作系统全部打通。

“理想汽车做AI，不是冒险。不做才是冒险。”

这不只是理想一家的事。国内近期也在从国家层面加速具身智能落地。杭州刚刚启用了全国首个国家级具身智能应用中试基地，130多台机器人在此接受30多种职业技能训练，由中国工程院院士王耀南担任学术委员会主任，宇树科技等行业企业也参与其中。

从实验室到真实场景，从自动驾驶的感知能力到人形机器人的泛化智能——这场变革正在加速。

📎 原文来源：理想汽车的具身智能蓝图：上半场造车，下半场造「人」
📎 参考来源：具身智能”上下半场”：自动驾驶技术为通用人形机器人铺路

2026年5月18日
OpenAI把Codex装进手机和Chrome，400万周活用户的编程方式要变了
OpenAI在5月14日扔了个重磅消息：Codex正式进入ChatGPT移动端预览版。iOS和Android的ChatGPT App用户，现在可以直接在手机上查看、管理和推进Codex的编程任务。周活已经破了400万的Codex，这一步走得相当聪明——当AI开始处理那些动辄几十分钟甚至几小时的复杂任务时，开发者不可能一直守在电脑前。

Codex的周活用户在今年初才50万，现在已经超过400万，8倍增长。OpenAI把移动端和浏览器扩展同时推出来，明显是在构建一个跨设备的AI编程生态，而不只是个代码助手。

移动端能做啥，不是远程控制那么简单

打开手机上的ChatGPT App，你现在可以看到Codex任务列表：哪些任务在跑、进度到哪了、输出了什么结果。需要人工审批的命令，手机会弹出通知让你确认。终端输出、测试结果、代码diff、截图——这些都能在手机上查看。

但代码文件、凭证、本地配置，仍然留在你的开发机上。OpenAI的定位很清晰：移动端是”跨设备AI编程协作入口”，不是让你在手机上写代码的远程桌面。你的Mac mini、笔记本或者远程开发环境继续跑任务，手机只负责看进度和拍板关键决策。

Chrome扩展同步上线，盯着浏览器这块高频入口

5月8日，OpenAI还悄悄推了Codex的Chrome扩展。这个动作的意图很直接：大多数开发者的日常工作，大量时间在浏览器里——查文档、测Web应用、看后台面板、开在线IDE。Codex扩展能直接读取多标签页上下文、调用DevTools、帮你测试Web应用，而且不会接管整个浏览器，页面控制权还在你手里。

这个扩展补上了Codex在”浏览器工作流”里的空白。桌面版的Computer Use功能虽然强，但Chrome扩展更轻量，更适合需要频繁切换上下文的日常工作。OpenAI发现，用户不只拿Codex写代码，还在用它处理测试、排错、网页协作这些连续任务。

企业功能跟上，不只是个人开发者的玩具

这次更新里，Remote SSH正式可用了，支持连接企业已有的远程开发环境。Hooks和Programmatic access tokens也一并支持，方便企业把Codex集成进自己的CI/CD流程。还有个值得注意的细节：HIPAA合规支持已经就位，这意味着医疗健康行业的开发者也能用Codex处理敏感数据环境。

Anthropic的Claude Code在开发者圈子里口碑不错，但OpenAI这次移动端+浏览器扩展的组合拳，明显是在覆盖更多使用场景。你不一定要在电脑前才能用AI编程助手，这个理念一旦被接受，Codex的400万周活可能只是个开始。
- Codex周活破400万，较年初增长8倍
- 移动端支持iOS/Android，可查看任务进度和审批命令
- Chrome扩展5月8日上线，覆盖浏览器工作流
- Remote SSH正式可用，企业级功能增强
- HIPAA合规支持，切入医疗健康场景
📎 原文来源：OpenAI 将 Codex 带入 ChatGPT 手机端 | IT之家 – Codex Chrome 扩展
2026年5月17日

博客

从诺贝尔奖到21亿美元

第一个吃螃蟹的人？

为什么主权基金蜂拥而入

多个变体同时测，Meta自己也没拿定主意

性能不够，Gemini来凑

从开源到闭源，Meta的AI路线大转弯

Android 17：给创作者和普通用户都上了一课

Gemini Intelligence：从助手到自动化套件

Googlebook：第一款AI原生操作系统？

还有一些值得盯的细节

自家短视频库就是最好的训练场

美国实验室不是没反应，是追起来费劲

这事的影响比看起来大

AI模型不只是”工具”，它能发现漏洞、建议攻击路径

Mistral的”欧洲独立”牌能打多久？

背后是更大的地缘AI博弈

接地气的购物AI

从推荐到自动执行

目前只在美国上线

AI工具矩阵持续扩张

Android XR眼镜从概念走向量产

Aluminum OS：Android与ChromeOS的合并尝试

Android 17稳步迭代

Comet：从搜索引擎变成AI浏览器

Deep Research：直接给你做PPT和电子表格

Samsung Internet合作：数亿设备预装

Perplexity的核心竞争力到底是什么

研发组织彻底打散重编

两款机器人已经立项

移动端能做啥，不是远程控制那么简单

Chrome扩展同步上线，盯着浏览器这块高频入口

企业功能跟上，不只是个人开发者的玩具