博客

Mistral CEO喊话法国政府：别让Anthropic的Mythos碰军事代码库

欧洲AI自主化的焦虑，这次被Mistral AI的联合创始人兼CEO Arthur Mensch摆到了台面上。他在法国国会听证会上明确警告：别让Anthropic的Mythos模型扫描法国军方的代码库，这会让欧洲陷入不可逆的网络安全依赖。

AI模型不只是”工具”，它能发现漏洞、建议攻击路径

Mensch说得很直白：现代AI模型已经能编排网络攻击、检测系统漏洞、甚至给出利用建议。这不只是美国系统的能力——Mistral自己的模型、中国开发的AI模型，同样能找到Mythos能找到的那些漏洞。

那为什么偏偏盯着Anthropic的Mythos不放？因为欧盟正在跟OpenAI和Anthropic谈判，想提前拿到它们最强网络安全模型的访问权限。Mensch的警告是：一旦让你家最敏感的代码库被外国AI”扫描”过了，这依赖关系就几乎不可逆了。

“欧洲应该在AI基础设施上保持独立，而不是把最敏感的安全审查交给外国实验室。”——Arthur Mensch

Mistral的”欧洲独立”牌能打多久？

Mensch在听证会上也提到了Mistral自身的独立性问题。他说美国投资者持股不到30%，公司优先选择欧洲资本，但欧洲拿不出足够资金，才接受了部分美国投资。Mistral不打算卖身，目标是保持独立并最终上市。

目前Mistral是欧盟唯一一家开发了有竞争力大语言模型的公司。这个叙事在政治上很吃香——欧洲一直担心自己在AI竞赛中沦为附庸，既依赖美国模型，又担心中国模型的数据安全。Mensch的警告，既是为欧洲AI自主化站台，也是在给Mistral自己的政府合同铺路。

背后是更大的地缘AI博弈

这事闹得挺大。Anthropic的Mythos是专门针对网络安全场景训练的模型，能力不容小觑。如果欧盟真的让Mythos扫描成员国军事代码库，等于把欧洲最敏感的网络安全底牌交到了一家美国公司手里。Mensch说的”不可逆依赖”，指的是AI模型会通过训练数据”记住”它看过的内容——你让它在你家代码库上跑一遍，它就等于”学过”了。

类似争议在美国也有。美国国防部用AI审查军事系统，到底是提高效率还是制造新的单点故障，争议一直没停过。欧洲现在的困境是：自己没有同等水平的AI网络安全工具，但又不愿意完全依赖美国。Mistral如果能拿到政府合同，至少能给欧洲一个”自己人”的选项。

Mensch这波操作，短期看是在帮Mistral抢政府订单，长期看是在押注”欧洲AI主权”这个叙事。问题是，光有叙事不够，Mistral能不能拿出跟Mythos同等水平的网络安全模型，才是法国政府要不要听他建议的关键。

📎 原文来源：The Decoder – Mistral CEO Arthur Mensch warns France against letting Anthropic’s Mythos scan military code bases

2026年5月18日
亚马逊给搜索框加了AI助手，Alexa+能帮你自动下单了
亚马逊5月13日宣布推出”Alexa for Shopping”，一个由Alexa+赋能的AI购物助手。它直接取代了2024年推出的Rufus，升级幅度不小。

Alexa for Shopping聊天窗口界面（来源：亚马逊）

这个助手可以在移动端、桌面端、Echo Show智能显示屏上使用，支持语音和触控两种操作。你在亚马逊主搜索栏或者专用的Alexa for Shopping聊天窗口里输入问题，它就能给出定制化推荐，甚至生成专属购物指南。

接地气的购物AI

用法很接地气。你可以问”适合男性的护肤流程是什么”，也可以查”我上一次买AA电池是什么时候”。它会记住你的购物习惯、偏好和历史订单，推荐会越来越准。

亚马逊说这个助手会理解用户的习惯、偏好和购买历史，为购物过程提供连贯、个性化的协助，并且会随时间推移变得更个性化、更有用。这听起来像是个长期陪跑的购物顾问，而不只是个搜索框。

从推荐到自动执行

功能不止于推荐。它可以对比商品、追踪价格，还能为宠物食品、纸巾这类刚需品安排循环订购。你甚至可以设置一个价格阈值：”如果这款防晒霜降到10美元，就把它加入我的购物车”——到价自动加购。

最激进的功能是”Buy for Me”代买服务。它可以跳出亚马逊，去其他线上商店帮你完成选购和支付。这功能当然方便，但也引发了不少关于AI自主权和隐私的争议。

亚马逊这波操作紧跟在”Amazon Now”30分钟送达服务上线之后，明显是在把AI往购物全链路里塞。从搜索、推荐、比价、价格追踪，到跨平台代买，Alexa for Shopping几乎覆盖了购物决策的全流程。

目前只在美国上线

Alexa for Shopping目前只向美国用户开放。国内用户还得再等等——不过按亚马逊的惯例，这类功能通常会在一两年内推到全球市场。
- 取代Rufus，Alexa+全面赋能购物场景
- 支持语音+触控，跨平台使用
- 价格追踪+条件式自动加购
- “Buy for Me”跨平台代买功能引发隐私争议
📎 原文来源：Amazon launches an AI shopping assistant for the search bar, powered by Alexa+（TechCrunch）
2026年5月18日
Google I/O 2026明天开幕，Gemini 4.0和XR眼镜值得盯紧

Google I/O 2026定于5月19日至20日开幕，距现在不到24小时。主旨演讲太平洋时间19日上午10点开始，覆盖Google AI、Android、Chrome等核心更新。

这届大会的核心焦点毫无悬念是Gemini。新版本可能定名Gemini 4.0或3.8，速度和智能化程度会超过前代。Gemini现在已经深度嵌入谷歌几乎所有产品，新版本向各产品线的渗透传导方式也值得关注。

AI工具矩阵持续扩张

除了模型升级，谷歌还会展示Veo（AI视频生成）、Lyria（AI音乐创作）、Beam（三维视频会议）等工具的持续迭代成果。Gemini的笔记本功能也会进一步强化——用户可以把特定主题的参考资料集中存储，Gemini基于这个上下文直接对话，不用每次重复提供信息来源。

动态可视化生成功能也在路上，要求Gemini”展示”或”可视化”时，它能在对话界面中直接生成动态交互式模拟。这种能力的落地，意味着Gemini从”回答工具”向”演示工具”的跨越。

Gemini的笔记本功能支持与NotebookLM深度联动，后者可以把笔记本内容生成视频概览、图表等多元输出。两者分工明确：NotebookLM只以用户提供的笔记本为信息来源，Gemini则会在笔记本上下文基础上进一步检索互联网。

Android XR眼镜从概念走向量产

硬件方面，Android XR智能眼镜是重头戏。谷歌在2025年I/O大会上展示过原型，今年应该会从概念走向量产。功能包括抬头显示通知、实时语言翻译、Gemini Live AI交互。外观比初代Google Glass低调很多，但隐私争议估计还是免不了。

当前智能眼镜市场已相对成熟，Meta已经联合Ray-Ban、Oakley等品牌推出合作款。谷歌此时入局，优势在于十余年的技术积累和Android生态的天然协同。参与合作的品牌众多，最终产品价格区间预计将覆盖入门到高端多个层次。

Aluminum OS：Android与ChromeOS的合并尝试

另一个值得关注的是代号”Aluminum OS”的新操作系统，目标是把Android和ChromeOS合并为一，在笔记本电脑上运行完整的Android体验，同时保留完整的Chrome浏览体验。ChromeOS主要依赖网页应用，Aluminum OS将拥有更完整的Android应用生态。

谷歌或许会在本届大会上披露更多合作信息，甚至直接发布产品。自研Pixelbook回归的可能性，同样不能完全排除。

Android 17稳步迭代

Android 17的测试版已经出了四个版本，”应用气泡”功能（把任意应用调出为悬浮窗口）是目前的亮点。正式版预计6月至7月发布，时间节点恰好在下一代Pixel系列手机宣布之前。

明天的大会直播值得盯一下，Gemini新版本和XR硬件的正式亮相应该是确定性最高的两个看点。谷歌在AI领域全力押注的趋势不会改变，这届大会大概率是2026年AI圈最重要的发布会之一。

📎 原文来源：谷歌I/O 2026大会前瞻：AI、新系统与智能眼镜全面解读（澎湃新闻）

2026年5月18日
Perplexity不再只是搜索引擎了：Comet浏览器+Deep Research让AI直接给你做PPT
说起AI搜索，很多人第一反应是ChatGPT或者Claude。但有一家公司正在悄悄把战场从”聊天框”扩展到整个浏览器——这家公司叫Perplexity，而2026年5月，它交出了一份相当激进的进化清单。

Comet：从搜索引擎变成AI浏览器

Perplexity在2026年5月推出了Comet——一款AI原生浏览器，覆盖iOS、Android、Mac和Windows。区别于传统浏览器塞一个Copilot侧边栏的做法，Comet把AI嵌入了浏览的每一个环节：打开任何网页都能直接总结、追问，甚至让Comet在浏览器里自主执行任务。

Comet for Enterprise则面向企业用户提供MDM批量部署能力，支持集中管控和数据合规审计，适合金融分析师、法律研究团队这类需要大量案头工作的场景。

Perplexity Comet 浏览器界面

Deep Research：直接给你做PPT和电子表格

这是本次更新最重磅的部分。Deep Research升级为Claude Opus 4.5（面向Max和Pro用户），并在业界率先实现了一个关键突破——可以直接生成演示文稿、电子表格、仪表盘、网站等成品交付物，而不是返回一大段文字让你自己整理。

你可以直接说”帮我做一个分析AI代理市场的演示文稿”，Deep Research就会直接输出一份可以演示的PPT。这和大多数研究代理只返回文本的体验，完全不在一个量级。

语音模式也升级到了GPT Realtime 1.5，可靠性提升超过25%，目前已在Comet桌面版和Android版上线。更有意思的是，Perplexity的语音回答仍然附带引用来源——这是它区别于其他语音模式的独特优势。

Samsung Internet合作：数亿设备预装

Perplexity还拿下了三星这个超级渠道——Comet的代理浏览能力已集成到Samsung Internet，后者预装在数亿台设备上。这意味着Perplexity的AI能力，正在直接渗透到海量硬件的原生入口，而不是让用户主动去下载一个独立App。

Max用户还解锁了一个罕见功能：可以自选Agent使用的模型，默认Opus 4.6，也可以换成Sonnet 4.5。这在AI产品里很少见——大多数厂商都绑死自家模型，Perplexity反其道而行。

Perplexity的核心竞争力到底是什么

从产品矩阵来看，Perplexity 2026年的核心优势有三条：
- 引用 grounded 能力——这是它的基因，从搜索引擎时代就积累的优势，竞品很难短期追上
- AI原生浏览器——Comet让AI不只是问答，而是融入整个信息消费流程
- Deep Research直接交付成品——省掉中间的”读文本再整理”环节，真正做到端到端
对比一下竞品：ChatGPT胜在生态广度，Claude胜在安全与推理深度，Gemini背后有整个Google硬件生态。Perplexity则一直在”研究”这条垂直赛道上挖护城河，而且越挖越深。

📎 原文来源：What’s New in Perplexity 2026: Comet Browser, Deep Research
📎 参考来源：Perplexity Release Notes – May 2026
2026年5月18日
自动驾驶是具身智能上半场，李想让理想”造人”的时间表提前了

最近汽车圈出了一个挺有意思的判断——理想汽车CEO李想说了一句话，把自动驾驶和人形机器人放在了一条时间轴上：自动驾驶是具身智能的上半场，通用人形机器人是下半场。

这句话不是随便说说的，背后有一张非常清晰的时间表。上半场自动驾驶分三个阶段：2018到2023年是L2辅助驾驶，2023到2028年是L3，2028到2033年是L4。下半场人形机器人则是：2030到2035年达到6岁泛化能力，2035到2040年达到12岁，2040年之后接近AGI水平。

李想还做了一个预判：购买L4自动驾驶汽车的用户，和购买家庭家政机器人的用户，重合度将高达90%。这意味着上半场的感知、模型、芯片、控制能力，可以无缝迁移到下半场，形成跨场景的商业闭环。

研发组织彻底打散重编

最让人意外的是理想今年1月的研发重组。他们把按软硬件划分的传统部门全部拆掉，按”造硅基人”的逻辑重新组合。infra团队负责算力数据，对应”心脏”；基座模型团队管多模态训练，对应”大脑”；软件本体团队做Agent和工具链，对应”手脚”；硬件本体团队管芯片传感器，对应”身体”；评估团队独立评估工作质量，对应”免疫系统”。

改完之后立竿见影：智驾模型训练从每两周迭代一次，直接压缩到每天一次。过去部门之间来回扯皮的沟通成本，就这么被彻底消解了。

两款机器人已经立项

资金投入上也不含糊。2025年理想研发花了113亿，其中AI相关占一半，2026年预算120亿基本保持同等比例。5月15日上市的L9 Livis，定价50.98万元，是理想切入具身智能赛道的首款量产旗舰。

值得注意的是，理想前高管创立的至简动力，在发布会当天放出了一个视频：旗下ix和i7两款机器人全程围观新车发布会，其中一台手持理想自研的马赫M100芯片。这说明理想系的人形机器人项目，早已跑在路上了。

理想L9 Livis 具身智能旗舰SUV

李想说这是理想的第三次”逆共识”。前两次分别是2015年坚持增程而非纯电，以及聚焦家庭场景而非个人用户。现在，当行业还在讨论具身智能是否遥不可及时，理想已经把芯片、模型、操作系统全部打通。

“理想汽车做AI，不是冒险。不做才是冒险。”

这不只是理想一家的事。国内近期也在从国家层面加速具身智能落地。杭州刚刚启用了全国首个国家级具身智能应用中试基地，130多台机器人在此接受30多种职业技能训练，由中国工程院院士王耀南担任学术委员会主任，宇树科技等行业企业也参与其中。

从实验室到真实场景，从自动驾驶的感知能力到人形机器人的泛化智能——这场变革正在加速。

📎 原文来源：理想汽车的具身智能蓝图：上半场造车，下半场造「人」
📎 参考来源：具身智能”上下半场”：自动驾驶技术为通用人形机器人铺路

2026年5月18日
OpenAI把Codex装进手机和Chrome，400万周活用户的编程方式要变了
OpenAI在5月14日扔了个重磅消息：Codex正式进入ChatGPT移动端预览版。iOS和Android的ChatGPT App用户，现在可以直接在手机上查看、管理和推进Codex的编程任务。周活已经破了400万的Codex，这一步走得相当聪明——当AI开始处理那些动辄几十分钟甚至几小时的复杂任务时，开发者不可能一直守在电脑前。

Codex的周活用户在今年初才50万，现在已经超过400万，8倍增长。OpenAI把移动端和浏览器扩展同时推出来，明显是在构建一个跨设备的AI编程生态，而不只是个代码助手。

移动端能做啥，不是远程控制那么简单

打开手机上的ChatGPT App，你现在可以看到Codex任务列表：哪些任务在跑、进度到哪了、输出了什么结果。需要人工审批的命令，手机会弹出通知让你确认。终端输出、测试结果、代码diff、截图——这些都能在手机上查看。

但代码文件、凭证、本地配置，仍然留在你的开发机上。OpenAI的定位很清晰：移动端是”跨设备AI编程协作入口”，不是让你在手机上写代码的远程桌面。你的Mac mini、笔记本或者远程开发环境继续跑任务，手机只负责看进度和拍板关键决策。

Chrome扩展同步上线，盯着浏览器这块高频入口

5月8日，OpenAI还悄悄推了Codex的Chrome扩展。这个动作的意图很直接：大多数开发者的日常工作，大量时间在浏览器里——查文档、测Web应用、看后台面板、开在线IDE。Codex扩展能直接读取多标签页上下文、调用DevTools、帮你测试Web应用，而且不会接管整个浏览器，页面控制权还在你手里。

这个扩展补上了Codex在”浏览器工作流”里的空白。桌面版的Computer Use功能虽然强，但Chrome扩展更轻量，更适合需要频繁切换上下文的日常工作。OpenAI发现，用户不只拿Codex写代码，还在用它处理测试、排错、网页协作这些连续任务。

企业功能跟上，不只是个人开发者的玩具

这次更新里，Remote SSH正式可用了，支持连接企业已有的远程开发环境。Hooks和Programmatic access tokens也一并支持，方便企业把Codex集成进自己的CI/CD流程。还有个值得注意的细节：HIPAA合规支持已经就位，这意味着医疗健康行业的开发者也能用Codex处理敏感数据环境。

Anthropic的Claude Code在开发者圈子里口碑不错，但OpenAI这次移动端+浏览器扩展的组合拳，明显是在覆盖更多使用场景。你不一定要在电脑前才能用AI编程助手，这个理念一旦被接受，Codex的400万周活可能只是个开始。
- Codex周活破400万，较年初增长8倍
- 移动端支持iOS/Android，可查看任务进度和审批命令
- Chrome扩展5月8日上线，覆盖浏览器工作流
- Remote SSH正式可用，企业级功能增强
- HIPAA合规支持，切入医疗健康场景
📎 原文来源：OpenAI 将 Codex 带入 ChatGPT 手机端 | IT之家 – Codex Chrome 扩展
2026年5月17日
Anthropic估值的9000亿美元，不只是钱，更是一场AI军备竞赛
如果你前几天还在说OpenAI是全球最值钱的AI公司，那这条新闻可能会让你重新掂量一下。Anthropic正在和投资人谈一轮新融资，估值目标直奔9000亿美元。什么概念？OpenAI刚在3月拿到8520亿美元估值，Anthropic这一跃，就把它甩在了身后。

Anthropic在2月的估值才3800亿美元，不到3个月，估值翻倍不止。年化收入从去年底约100亿美元，现在已经跑到300亿美元。Claude Code出来之后，开发者的钱包是真的打开了。

钱从哪来，花到哪去

这轮融资如果落地，规模大概是500亿美元。背后的战略投资方已经基本明朗：Amazon最高出250亿，Google最高出400亿，但不是直接砸现金，而是算作AI基础设施投资——说白了，就是给Anthropic提供算力的那些数据中心和TPU/GPU集群，折合股份。

为什么这么急？Claude Mythos Preview这 model 出来之后，特朗普政府、科技CEO、银行高管都在问：这东西能不能用到我们这边？Anthropic需要大量算力来训练和部署Mythos，没有足够的计算资源，模型能力再强也只是PPT。

所以你看，Amazon给了5吉瓦的计算容量，Google/Broadcom那边也有5吉瓦，2027年开始陆续上线。这些不是简单的”云服务费”，而是深度绑定的战略联盟——Anthropic用它们的算力，它们拿到Anthropic的股权和未来模型的使用优先权。

Claude Code是真正的现金牛

Anthropic的收入爆发，Claude Code功不可没。这个AI编程助手出来之后，不只个人开发者在用，企业也在悄悄把Claude Code塞进自己的工作流。年化收入300亿美元，去年才100亿，这个增速在AI行业里也是数得着的。

OpenAI有ChatGPT的全民流量，但Anthropic走的是另一条路：先做技术圈口碑，再做企业市场。Claude的”更安全、更可控”定位，在金融、医疗、法律这些对准确性要求高的行业，反而比OpenAI更吃香。Ramp的数据也验证了这一点——Anthropic的企业客户占比已经反超OpenAI。

9000亿之后，IPO还远吗

有消息说Anthropic正在考虑最早2026年10月启动IPO。以9000亿美元的估值进场，这会是有史以来最大的科技IPO之一。但问题也随之而来：Anthropic现在还是严重亏损状态，高额的算力采购和人才成本压着，IPO之后能不能兑现投资人的预期，是个大问题。

另一个角度看，Anthropic和OpenAI的战争，已经从模型能力延伸到生态系统。Amazon和Google下重注，不只是看中Anthropic的技术，更是要在AI基础设施层面和微软+OpenAI的组合拳打对手戏。这一轮融资，本质上是AI时代新旧势力的一次重新排位。
- Anthropic估值9000亿美元，超越OpenAI的8520亿
- Amazon/Google以算力换股权，各出数百亿美元
- Claude Code推动年化收入激增至300亿美元
- 最早2026年10月IPO，届时将创下科技IPO纪录
- AI算力军备竞赛，Anthropic站到了有利位置
📎 原文来源：CNBC – Anthropic Weighs Raising Funds at $900B Valuation, Topping OpenAI
2026年5月17日
OpenAI砸40亿美元成立DeployCo：从卖模型变成了干脏活

OpenAI最近搞了一件大事，不是发布新模型，也不是搞融资，而是成立了一家新公司——OpenAI Deployment Company，简称DeployCo。5月11日官宣，首期投入超过40亿美元，投资方阵容包括TPG领投，Advent、Bain Capital、Brookfield联合创始，软银、高盛、Warburg Pincus等跟投，总共19家机构参与。

OpenAI Deployment Company (来源: OpenAI)

干了什么？买人、买公司、派工程师进驻客户

DeployCo的核心模式叫Forward Deployed Engineers（前沿部署工程师）。简单说就是：OpenAI把自己的工程师派到你公司里去，坐你旁边，跟你业务团队一起干活。识别哪些场景有高价值、重构关键流程、把模型接进你现成的数据和业务系统里。

为了快速启动，OpenAI同时宣布收购Tomoro——一家做企业AI咨询和工程的公司。Tomoro大概有150名部署工程师，给Tesco、Virgin Atlantic、Supercell这些大客户做过实时AI系统。这笔收购目前还在走监管审批。

另外还拉来了Bain & Company、Capgemini、McKinsey三家咨询公司做系统集成伙伴。这三家加起来服务的企业超过2000家，渠道优势明显。

为什么OpenAI要干这件事

OpenAI声称已有超过100万家企业在使用其产品和API。但大量企业卡在试点阶段，没法把AI真正嵌入核心生产系统。

这就是DeployCo瞄准的断层——从”试点”到”生产系统”之间的鸿沟。模型能力强只是入场券，流程跑通才是护城河。OpenAI自己显然也意识到了这一点：光靠卖API和ChatGPT Enterprise订阅，没法帮客户把AI真正融入日常业务。

从商业模式上看，这是一次比较大的转型。以前OpenAI赚的是调用费和订阅费，现在它要切入的是咨询和系统集成的钱。决策者从开发者变成CIO和CTO，预算从软件采购变成数字化转型项目。成败标准也变了——不再是API调用量，而是生产系统效果和业务指标。

几个值得关注的变量

首先，DeployCo进入的是一个已经有Palantir、埃森哲、微软Copilot混战的市场。OpenAI的优势是离模型研发最近，能第一时间拿到最新能力；短板是交付规模还没被验证，行业经验和客户内部政治处理能力需要时间积累。

其次，咨询伙伴关系怎么处理是个微妙的问题。Bain、McKinsey这些公司本身就是OpenAI的渠道，但它们也做系统集成。在客户的预算里，DeployCo的FDE团队和咨询公司之间是增量合作还是正面相撞，现在还不清晰。

还有一个数据安全方面的问题——客户的流程改造经验、业务数据会在多大程度上反哺给OpenAI的模型训练？这对很多企业来说是一条不能忽视的红线。

40亿美元是个大手笔。如果DeployCo能跑通一套可复制的行业交付模板，商业边界会比单纯的API供应商宽得多。但如果只是用钱砸扩张速度，那这笔投资的回报率可能就不那么好看了。

📎 原文来源：OpenAI成立DeployCo：从卖模型走向企业AI落地现场 / OpenAI Blog

2026年5月17日
Notion不再只是笔记工具了，它要当AI智能体的指挥中心
用过Notion的人都知道，它是一个挺顺手的协作工具——文档、数据库、看板、日历，基本日常办公能想到的东西都能往里塞。但5月13日Notion发布3.5版本后，这件事变了：Notion正式推出开发者平台，目标很直接——把工作区变成AI智能体的调度中心。

Notion 3.5 开发者平台展示 (来源: Notion)

Workers：不需要你自己搭服务器

这次更新最核心的概念叫Workers——一段运行在Notion自己基础设施上的代码。你写好逻辑，通过CLI部署上去，它就在安全沙箱里跑了。不租服务器、不配域名、不搞CI/CD，连运行时环境都不用管。

Workers目前免费（beta阶段），8月11日后会切换到Notion credits计费。目前支持三种核心场景：
- 数据库同步——把任何API能访问的数据源拉进Notion数据库，比如Zendesk工单、Salesforce客户数据
- 自定义Agent工具——写确定性逻辑替代LLM推理，省钱又可靠
- Webhook触发——任何外部应用都能触发Notion里的工作流，PR合并自动关任务、订阅变更自动更新CRM
外部Agent接入：Claude、Codex都能直接用

另一个值得注意的功能是External Agents API。简单说就是：你可以把Claude、Codex、Decagon这些智能体接入Notion，让它们在你的工作区里干活。Notion在这里扮演的是编排层的角色——一个Decagon的工单可以路由给编程Agent起草修复方案，再拉团队成员审批。

Notion is our AI layer because it’s where work is created or imagined—and we want our agents as close to the action as possible. — Dan Gilbert, CEO at Brainlabs

这个功能目前是Alpha阶段，需要加入等待列表。非工程师也可以在Notion里直接和Agent交互，不需要去命令行。

Agent SDK：反向输出到任何应用

更长远的一步是Notion Agent SDK（也在Alpha阶段），可以把你在Notion里搭好的Agent嵌入到外部工具里。在CRM里点个按钮就生成报告，在Teams或Discord里回答团队成员的常见问题——数据都从你的Notion工作区里拉。

除此之外还有几个对开发者友好的更新：Markdown API让Agent直接读写Notion页面（Agent天然处理Markdown）、MCP协议支持了会议笔记和评论、API权限从Workspace Owner扩展到了所有成员。

怎么看这件事

Notion这次做的事情，本质上是把自己从一个SaaS工具升级成了一个平台。以前你用它来写文档、管项目；现在它希望你的Claude、你的Codex、你自己写的Agent都住在Notion里，通过它来协调数据和任务流。

这个定位挺聪明的。AI Agent生态现在最大的痛点不是缺模型，而是缺一个能把多个Agent串起来、让非技术人员也能参与协作的界面。Notion恰好有这个用户基础和产品心智。

不过Workers目前还是beta，External Agents API还在Alpha，Agent SDK更是刚开了个等待列表。Notion能否真正成为企业AI的调度中心，取决于这些功能能不能快速成熟，以及开发者的响应速度。

📎 原文来源：Notion Releases — May 13, 2026: Notion Developer Platform
2026年5月17日
不用改提示词，直接调模型“大脑”：DeepSeek-V4-Flash让LLM Steering回归实用
跟AI打交道的人大概都有这种体验：你在系统提示词里写了800字约束模型的语气、风格和立场，结果对话进行到第三轮，模型就开始放飞自我了。提示词能影响的只是模型的输入端，模型内部怎么处理、怎么生成，你管不着。

但现在有一种替代方案正在重新回到聚光灯下——LLM Steering（大语言模型引导）。这不是什么新概念，早在Anthropic做Golden Gate Claude的时候就引发过关注。只是以前它太重了，需要A100级别的GPU和PyTorch加TransformerLens，普通开发者根本玩不起。而DeepSeek-V4-Flash加上一个叫DwarfStar 4的工具，把这个门槛降到了单张RTX 4090就能跑。

Steering到底是什么，跟提示词有什么区别

打个比方。提示词就像你给一个人写了张纸条：”请你用简洁的语气回答”，这个人看了纸条，可能前两句照做了，聊着聊着又回到啰嗦的老样子。Steering则像你直接拧了这个人脑子里一个名为”简洁度”的旋钮，每一句话都说出来之前，这个旋钮都在生效。

技术上的实现也不复杂。Steering的核心是对比对（Contrast Pair）——让模型分别处理两个条件，比如”简洁回答”和”详细回答”，记录某一层激活值的差异，算出平均差值作为”简洁方向向量”。之后在正常的推理过程中，把这个向量加到对应层的激活值上，模型的输出就会不自觉地偏向简洁。

提示词管的是输入，Steering管的是过程。前者是”请你这样做”，后者是”我帮你这样做”。每个token生成时都在施加影响，所以效果在整个输出中保持一致。

为什么以前没流行起来

Steering概念好是好，但有三个硬伤一直挡在前面。第一，它只适用于开源模型——你需要访问模型内部每一层的激活值，而OpenAI和Anthropic的API不可能给你这个权限。第二，以前做激活值分析需要搭建PyTorch + TransformerLens的完整环境，硬件起步就是A100。第三，大多数Steering能实现的效果，其实用提示词也能凑合达到，多花几行字就完事了。

所以之前Steering基本是大厂实验室的自留地，Anthropic拿它做可解释性研究，学术界拿它写论文，一线开发者完全用不上。

DeepSeek-V4-Flash + DwarfStar 4改变了什么

两个关键因素。DeepSeek-V4-Flash本身就是一个针对推理效率优化过的模型，能在相对有限的显存上运行，同时保持了不错的推理质量。而DwarfStar 4是llama.cpp的一个分支，专门为特定模型系列加了激活值钩子，把”提取和注入激活值”这个操作简化到了几乎一条命令就能完成。

这意味着什么？以前你需要一个有A100的实验室和一整套PyTorch环境，现在你只需要一张4090和几行命令就能跑完整个Steering实验的流程。门槛的降低是数量级的。

能拿它干什么
- 语气一致性：让模型在长对话中始终维持特定的语气和风格，不会漂移
- 领域偏移：不用微调，就让模型的输出偏向金融、医疗或法律风格（但只影响表达框架，不影响事实准确性）
- 安全防护：构建安全拒绝向量，在推理时注入作为轻量级护栏
- 上下文压缩：把原本需要大量token描述的约束条件压缩成一个向量，省出上下文窗口
不过也别太乐观。Sean Goedecke在他那篇广为流传的文章里提到，Steering目前还有明显的局限性：你很难精确理解一个激活值差异到底编码了什么信息，副效应可能出现在不相关的任务上，而且在一个领域构建的向量未必能迁移到另一个领域。

从黑盒喊话到白盒调参

Bagua AI的文章里有一个观点我觉得很到位：过去几年，行业一直在把LLM当黑盒，用提示词从外面”喊”它。Steering的复兴代表了一个转变——我们从外部喊话，变成从内部调参。这不仅仅是效率优化，而是机械可解释性（Mechanistic Interpretability）走向工业化应用的第一步。

对实际做开发的团队来说，Steering目前最直接的价值在于替代那些越来越臃肿的系统提示词。与其花500个token约束模型行为，不如提取一个向量注入进去，既省上下文窗口又稳定。这个账，但凡做过复杂Agent系统的人都会算。

竞争壁垒正在从”提示词工程”转向”理解内部表征”。谁能读懂模型的激活空间，谁就能更好地控制模型。这项技能在未来可能比写prompt值钱得多。

📎 原文来源：DeepSeek-V4-Flash means LLM steering is interesting again – Sean Goedecke ｜ LLM Steering Vectors 2026 – braindetox ｜ DeepSeek-V4-Flash Revitalizes LLM Steering – Bagua AI
2026年5月17日

博客

AI模型不只是”工具”，它能发现漏洞、建议攻击路径

Mistral的”欧洲独立”牌能打多久？

背后是更大的地缘AI博弈

接地气的购物AI

从推荐到自动执行

目前只在美国上线

AI工具矩阵持续扩张

Android XR眼镜从概念走向量产

Aluminum OS：Android与ChromeOS的合并尝试

Android 17稳步迭代

Comet：从搜索引擎变成AI浏览器

Deep Research：直接给你做PPT和电子表格

Samsung Internet合作：数亿设备预装

Perplexity的核心竞争力到底是什么

研发组织彻底打散重编

两款机器人已经立项

移动端能做啥，不是远程控制那么简单

Chrome扩展同步上线，盯着浏览器这块高频入口

企业功能跟上，不只是个人开发者的玩具

钱从哪来，花到哪去

Claude Code是真正的现金牛

9000亿之后，IPO还远吗

干了什么？买人、买公司、派工程师进驻客户

为什么OpenAI要干这件事

几个值得关注的变量

Workers：不需要你自己搭服务器

外部Agent接入：Claude、Codex都能直接用

Agent SDK：反向输出到任何应用

怎么看这件事

Steering到底是什么，跟提示词有什么区别

为什么以前没流行起来

DeepSeek-V4-Flash + DwarfStar 4改变了什么

能拿它干什么

从黑盒喊话到白盒调参