博客

  • Mistral CEO喊话法国政府:别让Anthropic的Mythos碰军事代码库

    欧洲AI自主化的焦虑,这次被Mistral AI的联合创始人兼CEO Arthur Mensch摆到了台面上。他在法国国会听证会上明确警告:别让Anthropic的Mythos模型扫描法国军方的代码库,这会让欧洲陷入不可逆的网络安全依赖。

    AI模型不只是”工具”,它能发现漏洞、建议攻击路径

    Mensch说得很直白:现代AI模型已经能编排网络攻击、检测系统漏洞、甚至给出利用建议。这不只是美国系统的能力——Mistral自己的模型、中国开发的AI模型,同样能找到Mythos能找到的那些漏洞。

    那为什么偏偏盯着Anthropic的Mythos不放?因为欧盟正在跟OpenAI和Anthropic谈判,想提前拿到它们最强网络安全模型的访问权限。Mensch的警告是:一旦让你家最敏感的代码库被外国AI”扫描”过了,这依赖关系就几乎不可逆了。

    “欧洲应该在AI基础设施上保持独立,而不是把最敏感的安全审查交给外国实验室。”——Arthur Mensch

    Mistral的”欧洲独立”牌能打多久?

    Mensch在听证会上也提到了Mistral自身的独立性问题。他说美国投资者持股不到30%,公司优先选择欧洲资本,但欧洲拿不出足够资金,才接受了部分美国投资。Mistral不打算卖身,目标是保持独立并最终上市。

    目前Mistral是欧盟唯一一家开发了有竞争力大语言模型的公司。这个叙事在政治上很吃香——欧洲一直担心自己在AI竞赛中沦为附庸,既依赖美国模型,又担心中国模型的数据安全。Mensch的警告,既是为欧洲AI自主化站台,也是在给Mistral自己的政府合同铺路。

    背后是更大的地缘AI博弈

    这事闹得挺大。Anthropic的Mythos是专门针对网络安全场景训练的模型,能力不容小觑。如果欧盟真的让Mythos扫描成员国军事代码库,等于把欧洲最敏感的网络安全底牌交到了一家美国公司手里。Mensch说的”不可逆依赖”,指的是AI模型会通过训练数据”记住”它看过的内容——你让它在你家代码库上跑一遍,它就等于”学过”了。

    类似争议在美国也有。美国国防部用AI审查军事系统,到底是提高效率还是制造新的单点故障,争议一直没停过。欧洲现在的困境是:自己没有同等水平的AI网络安全工具,但又不愿意完全依赖美国。Mistral如果能拿到政府合同,至少能给欧洲一个”自己人”的选项。


    Mensch这波操作,短期看是在帮Mistral抢政府订单,长期看是在押注”欧洲AI主权”这个叙事。问题是,光有叙事不够,Mistral能不能拿出跟Mythos同等水平的网络安全模型,才是法国政府要不要听他建议的关键。

  • 亚马逊给搜索框加了AI助手,Alexa+能帮你自动下单了

    亚马逊5月13日宣布推出”Alexa for Shopping”,一个由Alexa+赋能的AI购物助手。它直接取代了2024年推出的Rufus,升级幅度不小。

    Alexa for Shopping聊天窗口演示
    Alexa for Shopping聊天窗口界面(来源:亚马逊)

    这个助手可以在移动端、桌面端、Echo Show智能显示屏上使用,支持语音和触控两种操作。你在亚马逊主搜索栏或者专用的Alexa for Shopping聊天窗口里输入问题,它就能给出定制化推荐,甚至生成专属购物指南。

    接地气的购物AI

    用法很接地气。你可以问”适合男性的护肤流程是什么”,也可以查”我上一次买AA电池是什么时候”。它会记住你的购物习惯、偏好和历史订单,推荐会越来越准。

    亚马逊说这个助手会理解用户的习惯、偏好和购买历史,为购物过程提供连贯、个性化的协助,并且会随时间推移变得更个性化、更有用。这听起来像是个长期陪跑的购物顾问,而不只是个搜索框。

    从推荐到自动执行

    功能不止于推荐。它可以对比商品、追踪价格,还能为宠物食品、纸巾这类刚需品安排循环订购。你甚至可以设置一个价格阈值:”如果这款防晒霜降到10美元,就把它加入我的购物车”——到价自动加购。

    最激进的功能是”Buy for Me”代买服务。它可以跳出亚马逊,去其他线上商店帮你完成选购和支付。这功能当然方便,但也引发了不少关于AI自主权和隐私的争议。

    亚马逊这波操作紧跟在”Amazon Now”30分钟送达服务上线之后,明显是在把AI往购物全链路里塞。从搜索、推荐、比价、价格追踪,到跨平台代买,Alexa for Shopping几乎覆盖了购物决策的全流程。

    目前只在美国上线

    Alexa for Shopping目前只向美国用户开放。国内用户还得再等等——不过按亚马逊的惯例,这类功能通常会在一两年内推到全球市场。


    • 取代Rufus,Alexa+全面赋能购物场景
    • 支持语音+触控,跨平台使用
    • 价格追踪+条件式自动加购
    • “Buy for Me”跨平台代买功能引发隐私争议
  • Google I/O 2026明天开幕,Gemini 4.0和XR眼镜值得盯紧

    Google I/O 2026定于5月19日至20日开幕,距现在不到24小时。主旨演讲太平洋时间19日上午10点开始,覆盖Google AI、Android、Chrome等核心更新。

    这届大会的核心焦点毫无悬念是Gemini。新版本可能定名Gemini 4.0或3.8,速度和智能化程度会超过前代。Gemini现在已经深度嵌入谷歌几乎所有产品,新版本向各产品线的渗透传导方式也值得关注。

    AI工具矩阵持续扩张

    除了模型升级,谷歌还会展示Veo(AI视频生成)、Lyria(AI音乐创作)、Beam(三维视频会议)等工具的持续迭代成果。Gemini的笔记本功能也会进一步强化——用户可以把特定主题的参考资料集中存储,Gemini基于这个上下文直接对话,不用每次重复提供信息来源。

    动态可视化生成功能也在路上,要求Gemini”展示”或”可视化”时,它能在对话界面中直接生成动态交互式模拟。这种能力的落地,意味着Gemini从”回答工具”向”演示工具”的跨越。

    Gemini的笔记本功能支持与NotebookLM深度联动,后者可以把笔记本内容生成视频概览、图表等多元输出。两者分工明确:NotebookLM只以用户提供的笔记本为信息来源,Gemini则会在笔记本上下文基础上进一步检索互联网。

    Android XR眼镜从概念走向量产

    硬件方面,Android XR智能眼镜是重头戏。谷歌在2025年I/O大会上展示过原型,今年应该会从概念走向量产。功能包括抬头显示通知、实时语言翻译、Gemini Live AI交互。外观比初代Google Glass低调很多,但隐私争议估计还是免不了。

    当前智能眼镜市场已相对成熟,Meta已经联合Ray-Ban、Oakley等品牌推出合作款。谷歌此时入局,优势在于十余年的技术积累和Android生态的天然协同。参与合作的品牌众多,最终产品价格区间预计将覆盖入门到高端多个层次。

    Aluminum OS:Android与ChromeOS的合并尝试

    另一个值得关注的是代号”Aluminum OS”的新操作系统,目标是把Android和ChromeOS合并为一,在笔记本电脑上运行完整的Android体验,同时保留完整的Chrome浏览体验。ChromeOS主要依赖网页应用,Aluminum OS将拥有更完整的Android应用生态。

    谷歌或许会在本届大会上披露更多合作信息,甚至直接发布产品。自研Pixelbook回归的可能性,同样不能完全排除。

    Android 17稳步迭代

    Android 17的测试版已经出了四个版本,”应用气泡”功能(把任意应用调出为悬浮窗口)是目前的亮点。正式版预计6月至7月发布,时间节点恰好在下一代Pixel系列手机宣布之前。


    明天的大会直播值得盯一下,Gemini新版本和XR硬件的正式亮相应该是确定性最高的两个看点。谷歌在AI领域全力押注的趋势不会改变,这届大会大概率是2026年AI圈最重要的发布会之一。

  • Perplexity不再只是搜索引擎了:Comet浏览器+Deep Research让AI直接给你做PPT

    说起AI搜索,很多人第一反应是ChatGPT或者Claude。但有一家公司正在悄悄把战场从”聊天框”扩展到整个浏览器——这家公司叫Perplexity,而2026年5月,它交出了一份相当激进的进化清单。

    Comet:从搜索引擎变成AI浏览器

    Perplexity在2026年5月推出了Comet——一款AI原生浏览器,覆盖iOS、Android、Mac和Windows。区别于传统浏览器塞一个Copilot侧边栏的做法,Comet把AI嵌入了浏览的每一个环节:打开任何网页都能直接总结、追问,甚至让Comet在浏览器里自主执行任务。

    Comet for Enterprise则面向企业用户提供MDM批量部署能力,支持集中管控和数据合规审计,适合金融分析师、法律研究团队这类需要大量案头工作的场景。

    Perplexity Comet浏览器
    Perplexity Comet 浏览器界面

    Deep Research:直接给你做PPT和电子表格

    这是本次更新最重磅的部分。Deep Research升级为Claude Opus 4.5(面向Max和Pro用户),并在业界率先实现了一个关键突破——可以直接生成演示文稿、电子表格、仪表盘、网站等成品交付物,而不是返回一大段文字让你自己整理。

    你可以直接说”帮我做一个分析AI代理市场的演示文稿”,Deep Research就会直接输出一份可以演示的PPT。这和大多数研究代理只返回文本的体验,完全不在一个量级。

    语音模式也升级到了GPT Realtime 1.5,可靠性提升超过25%,目前已在Comet桌面版和Android版上线。更有意思的是,Perplexity的语音回答仍然附带引用来源——这是它区别于其他语音模式的独特优势。

    Samsung Internet合作:数亿设备预装

    Perplexity还拿下了三星这个超级渠道——Comet的代理浏览能力已集成到Samsung Internet,后者预装在数亿台设备上。这意味着Perplexity的AI能力,正在直接渗透到海量硬件的原生入口,而不是让用户主动去下载一个独立App。

    Max用户还解锁了一个罕见功能:可以自选Agent使用的模型,默认Opus 4.6,也可以换成Sonnet 4.5。这在AI产品里很少见——大多数厂商都绑死自家模型,Perplexity反其道而行。

    Perplexity的核心竞争力到底是什么

    从产品矩阵来看,Perplexity 2026年的核心优势有三条:

    • 引用 grounded 能力——这是它的基因,从搜索引擎时代就积累的优势,竞品很难短期追上
    • AI原生浏览器——Comet让AI不只是问答,而是融入整个信息消费流程
    • Deep Research直接交付成品——省掉中间的”读文本再整理”环节,真正做到端到端

    对比一下竞品:ChatGPT胜在生态广度,Claude胜在安全与推理深度,Gemini背后有整个Google硬件生态。Perplexity则一直在”研究”这条垂直赛道上挖护城河,而且越挖越深。


  • 自动驾驶是具身智能上半场,李想让理想”造人”的时间表提前了

    最近汽车圈出了一个挺有意思的判断——理想汽车CEO李想说了一句话,把自动驾驶和人形机器人放在了一条时间轴上:自动驾驶是具身智能的上半场,通用人形机器人是下半场。

    这句话不是随便说说的,背后有一张非常清晰的时间表。上半场自动驾驶分三个阶段:2018到2023年是L2辅助驾驶,2023到2028年是L3,2028到2033年是L4。下半场人形机器人则是:2030到2035年达到6岁泛化能力,2035到2040年达到12岁,2040年之后接近AGI水平。

    李想还做了一个预判:购买L4自动驾驶汽车的用户,和购买家庭家政机器人的用户,重合度将高达90%。这意味着上半场的感知、模型、芯片、控制能力,可以无缝迁移到下半场,形成跨场景的商业闭环。

    研发组织彻底打散重编

    最让人意外的是理想今年1月的研发重组。他们把按软硬件划分的传统部门全部拆掉,按”造硅基人”的逻辑重新组合。infra团队负责算力数据,对应”心脏”;基座模型团队管多模态训练,对应”大脑”;软件本体团队做Agent和工具链,对应”手脚”;硬件本体团队管芯片传感器,对应”身体”;评估团队独立评估工作质量,对应”免疫系统”。

    改完之后立竿见影:智驾模型训练从每两周迭代一次,直接压缩到每天一次。过去部门之间来回扯皮的沟通成本,就这么被彻底消解了。

    两款机器人已经立项

    资金投入上也不含糊。2025年理想研发花了113亿,其中AI相关占一半,2026年预算120亿基本保持同等比例。5月15日上市的L9 Livis,定价50.98万元,是理想切入具身智能赛道的首款量产旗舰。

    值得注意的是,理想前高管创立的至简动力,在发布会当天放出了一个视频:旗下ix和i7两款机器人全程围观新车发布会,其中一台手持理想自研的马赫M100芯片。这说明理想系的人形机器人项目,早已跑在路上了。

    理想L9 Livis
    理想L9 Livis 具身智能旗舰SUV

    李想说这是理想的第三次”逆共识”。前两次分别是2015年坚持增程而非纯电,以及聚焦家庭场景而非个人用户。现在,当行业还在讨论具身智能是否遥不可及时,理想已经把芯片、模型、操作系统全部打通。

    “理想汽车做AI,不是冒险。不做才是冒险。”

    这不只是理想一家的事。国内近期也在从国家层面加速具身智能落地。杭州刚刚启用了全国首个国家级具身智能应用中试基地,130多台机器人在此接受30多种职业技能训练,由中国工程院院士王耀南担任学术委员会主任,宇树科技等行业企业也参与其中。

    从实验室到真实场景,从自动驾驶的感知能力到人形机器人的泛化智能——这场变革正在加速。


  • OpenAI把Codex装进手机和Chrome,400万周活用户的编程方式要变了

    OpenAI在5月14日扔了个重磅消息:Codex正式进入ChatGPT移动端预览版。iOS和Android的ChatGPT App用户,现在可以直接在手机上查看、管理和推进Codex的编程任务。周活已经破了400万的Codex,这一步走得相当聪明——当AI开始处理那些动辄几十分钟甚至几小时的复杂任务时,开发者不可能一直守在电脑前。

    Codex的周活用户在今年初才50万,现在已经超过400万,8倍增长。OpenAI把移动端和浏览器扩展同时推出来,明显是在构建一个跨设备的AI编程生态,而不只是个代码助手。

    移动端能做啥,不是远程控制那么简单

    打开手机上的ChatGPT App,你现在可以看到Codex任务列表:哪些任务在跑、进度到哪了、输出了什么结果。需要人工审批的命令,手机会弹出通知让你确认。终端输出、测试结果、代码diff、截图——这些都能在手机上查看。

    但代码文件、凭证、本地配置,仍然留在你的开发机上。OpenAI的定位很清晰:移动端是”跨设备AI编程协作入口”,不是让你在手机上写代码的远程桌面。你的Mac mini、笔记本或者远程开发环境继续跑任务,手机只负责看进度和拍板关键决策。


    Chrome扩展同步上线,盯着浏览器这块高频入口

    5月8日,OpenAI还悄悄推了Codex的Chrome扩展。这个动作的意图很直接:大多数开发者的日常工作,大量时间在浏览器里——查文档、测Web应用、看后台面板、开在线IDE。Codex扩展能直接读取多标签页上下文、调用DevTools、帮你测试Web应用,而且不会接管整个浏览器,页面控制权还在你手里。

    这个扩展补上了Codex在”浏览器工作流”里的空白。桌面版的Computer Use功能虽然强,但Chrome扩展更轻量,更适合需要频繁切换上下文的日常工作。OpenAI发现,用户不只拿Codex写代码,还在用它处理测试、排错、网页协作这些连续任务。


    企业功能跟上,不只是个人开发者的玩具

    这次更新里,Remote SSH正式可用了,支持连接企业已有的远程开发环境。Hooks和Programmatic access tokens也一并支持,方便企业把Codex集成进自己的CI/CD流程。还有个值得注意的细节:HIPAA合规支持已经就位,这意味着医疗健康行业的开发者也能用Codex处理敏感数据环境。

    Anthropic的Claude Code在开发者圈子里口碑不错,但OpenAI这次移动端+浏览器扩展的组合拳,明显是在覆盖更多使用场景。你不一定要在电脑前才能用AI编程助手,这个理念一旦被接受,Codex的400万周活可能只是个开始。

    • Codex周活破400万,较年初增长8倍
    • 移动端支持iOS/Android,可查看任务进度和审批命令
    • Chrome扩展5月8日上线,覆盖浏览器工作流
    • Remote SSH正式可用,企业级功能增强
    • HIPAA合规支持,切入医疗健康场景
  • Anthropic估值的9000亿美元,不只是钱,更是一场AI军备竞赛

    如果你前几天还在说OpenAI是全球最值钱的AI公司,那这条新闻可能会让你重新掂量一下。Anthropic正在和投资人谈一轮新融资,估值目标直奔9000亿美元。什么概念?OpenAI刚在3月拿到8520亿美元估值,Anthropic这一跃,就把它甩在了身后。

    Anthropic在2月的估值才3800亿美元,不到3个月,估值翻倍不止。年化收入从去年底约100亿美元,现在已经跑到300亿美元。Claude Code出来之后,开发者的钱包是真的打开了。

    钱从哪来,花到哪去

    这轮融资如果落地,规模大概是500亿美元。背后的战略投资方已经基本明朗:Amazon最高出250亿,Google最高出400亿,但不是直接砸现金,而是算作AI基础设施投资——说白了,就是给Anthropic提供算力的那些数据中心和TPU/GPU集群,折合股份。

    为什么这么急?Claude Mythos Preview这 model 出来之后,特朗普政府、科技CEO、银行高管都在问:这东西能不能用到我们这边?Anthropic需要大量算力来训练和部署Mythos,没有足够的计算资源,模型能力再强也只是PPT。

    所以你看,Amazon给了5吉瓦的计算容量,Google/Broadcom那边也有5吉瓦,2027年开始陆续上线。这些不是简单的”云服务费”,而是深度绑定的战略联盟——Anthropic用它们的算力,它们拿到Anthropic的股权和未来模型的使用优先权。


    Claude Code是真正的现金牛

    Anthropic的收入爆发,Claude Code功不可没。这个AI编程助手出来之后,不只个人开发者在用,企业也在悄悄把Claude Code塞进自己的工作流。年化收入300亿美元,去年才100亿,这个增速在AI行业里也是数得着的。

    OpenAI有ChatGPT的全民流量,但Anthropic走的是另一条路:先做技术圈口碑,再做企业市场。Claude的”更安全、更可控”定位,在金融、医疗、法律这些对准确性要求高的行业,反而比OpenAI更吃香。Ramp的数据也验证了这一点——Anthropic的企业客户占比已经反超OpenAI。


    9000亿之后,IPO还远吗

    有消息说Anthropic正在考虑最早2026年10月启动IPO。以9000亿美元的估值进场,这会是有史以来最大的科技IPO之一。但问题也随之而来:Anthropic现在还是严重亏损状态,高额的算力采购和人才成本压着,IPO之后能不能兑现投资人的预期,是个大问题。

    另一个角度看,Anthropic和OpenAI的战争,已经从模型能力延伸到生态系统。Amazon和Google下重注,不只是看中Anthropic的技术,更是要在AI基础设施层面和微软+OpenAI的组合拳打对手戏。这一轮融资,本质上是AI时代新旧势力的一次重新排位。

    • Anthropic估值9000亿美元,超越OpenAI的8520亿
    • Amazon/Google以算力换股权,各出数百亿美元
    • Claude Code推动年化收入激增至300亿美元
    • 最早2026年10月IPO,届时将创下科技IPO纪录
    • AI算力军备竞赛,Anthropic站到了有利位置
  • OpenAI砸40亿美元成立DeployCo:从卖模型变成了干脏活

    OpenAI最近搞了一件大事,不是发布新模型,也不是搞融资,而是成立了一家新公司——OpenAI Deployment Company,简称DeployCo。5月11日官宣,首期投入超过40亿美元,投资方阵容包括TPG领投,Advent、Bain Capital、Brookfield联合创始,软银、高盛、Warburg Pincus等跟投,总共19家机构参与。

    OpenAI Deployment Company
    OpenAI Deployment Company (来源: OpenAI)

    干了什么?买人、买公司、派工程师进驻客户

    DeployCo的核心模式叫Forward Deployed Engineers(前沿部署工程师)。简单说就是:OpenAI把自己的工程师派到你公司里去,坐你旁边,跟你业务团队一起干活。识别哪些场景有高价值、重构关键流程、把模型接进你现成的数据和业务系统里。

    为了快速启动,OpenAI同时宣布收购Tomoro——一家做企业AI咨询和工程的公司。Tomoro大概有150名部署工程师,给Tesco、Virgin Atlantic、Supercell这些大客户做过实时AI系统。这笔收购目前还在走监管审批。

    另外还拉来了Bain & Company、Capgemini、McKinsey三家咨询公司做系统集成伙伴。这三家加起来服务的企业超过2000家,渠道优势明显。

    为什么OpenAI要干这件事

    OpenAI声称已有超过100万家企业在使用其产品和API。但大量企业卡在试点阶段,没法把AI真正嵌入核心生产系统。

    这就是DeployCo瞄准的断层——从”试点”到”生产系统”之间的鸿沟。模型能力强只是入场券,流程跑通才是护城河。OpenAI自己显然也意识到了这一点:光靠卖API和ChatGPT Enterprise订阅,没法帮客户把AI真正融入日常业务。

    从商业模式上看,这是一次比较大的转型。以前OpenAI赚的是调用费和订阅费,现在它要切入的是咨询和系统集成的钱。决策者从开发者变成CIO和CTO,预算从软件采购变成数字化转型项目。成败标准也变了——不再是API调用量,而是生产系统效果和业务指标。


    几个值得关注的变量

    首先,DeployCo进入的是一个已经有Palantir、埃森哲、微软Copilot混战的市场。OpenAI的优势是离模型研发最近,能第一时间拿到最新能力;短板是交付规模还没被验证,行业经验和客户内部政治处理能力需要时间积累。

    其次,咨询伙伴关系怎么处理是个微妙的问题。Bain、McKinsey这些公司本身就是OpenAI的渠道,但它们也做系统集成。在客户的预算里,DeployCo的FDE团队和咨询公司之间是增量合作还是正面相撞,现在还不清晰。

    还有一个数据安全方面的问题——客户的流程改造经验、业务数据会在多大程度上反哺给OpenAI的模型训练?这对很多企业来说是一条不能忽视的红线。

    40亿美元是个大手笔。如果DeployCo能跑通一套可复制的行业交付模板,商业边界会比单纯的API供应商宽得多。但如果只是用钱砸扩张速度,那这笔投资的回报率可能就不那么好看了。

  • Notion不再只是笔记工具了,它要当AI智能体的指挥中心

    用过Notion的人都知道,它是一个挺顺手的协作工具——文档、数据库、看板、日历,基本日常办公能想到的东西都能往里塞。但5月13日Notion发布3.5版本后,这件事变了:Notion正式推出开发者平台,目标很直接——把工作区变成AI智能体的调度中心。

    Notion Developer Platform
    Notion 3.5 开发者平台展示 (来源: Notion)

    Workers:不需要你自己搭服务器

    这次更新最核心的概念叫Workers——一段运行在Notion自己基础设施上的代码。你写好逻辑,通过CLI部署上去,它就在安全沙箱里跑了。不租服务器、不配域名、不搞CI/CD,连运行时环境都不用管。

    Workers目前免费(beta阶段),8月11日后会切换到Notion credits计费。目前支持三种核心场景:

    • 数据库同步——把任何API能访问的数据源拉进Notion数据库,比如Zendesk工单、Salesforce客户数据
    • 自定义Agent工具——写确定性逻辑替代LLM推理,省钱又可靠
    • Webhook触发——任何外部应用都能触发Notion里的工作流,PR合并自动关任务、订阅变更自动更新CRM

    外部Agent接入:Claude、Codex都能直接用

    另一个值得注意的功能是External Agents API。简单说就是:你可以把Claude、Codex、Decagon这些智能体接入Notion,让它们在你的工作区里干活。Notion在这里扮演的是编排层的角色——一个Decagon的工单可以路由给编程Agent起草修复方案,再拉团队成员审批。

    Notion is our AI layer because it’s where work is created or imagined—and we want our agents as close to the action as possible. — Dan Gilbert, CEO at Brainlabs

    这个功能目前是Alpha阶段,需要加入等待列表。非工程师也可以在Notion里直接和Agent交互,不需要去命令行。

    Agent SDK:反向输出到任何应用

    更长远的一步是Notion Agent SDK(也在Alpha阶段),可以把你在Notion里搭好的Agent嵌入到外部工具里。在CRM里点个按钮就生成报告,在Teams或Discord里回答团队成员的常见问题——数据都从你的Notion工作区里拉。

    除此之外还有几个对开发者友好的更新:Markdown API让Agent直接读写Notion页面(Agent天然处理Markdown)、MCP协议支持了会议笔记和评论、API权限从Workspace Owner扩展到了所有成员。


    怎么看这件事

    Notion这次做的事情,本质上是把自己从一个SaaS工具升级成了一个平台。以前你用它来写文档、管项目;现在它希望你的Claude、你的Codex、你自己写的Agent都住在Notion里,通过它来协调数据和任务流。

    这个定位挺聪明的。AI Agent生态现在最大的痛点不是缺模型,而是缺一个能把多个Agent串起来、让非技术人员也能参与协作的界面。Notion恰好有这个用户基础和产品心智。

    不过Workers目前还是beta,External Agents API还在Alpha,Agent SDK更是刚开了个等待列表。Notion能否真正成为企业AI的调度中心,取决于这些功能能不能快速成熟,以及开发者的响应速度。

  • 不用改提示词,直接调模型“大脑”:DeepSeek-V4-Flash让LLM Steering回归实用

    跟AI打交道的人大概都有这种体验:你在系统提示词里写了800字约束模型的语气、风格和立场,结果对话进行到第三轮,模型就开始放飞自我了。提示词能影响的只是模型的输入端,模型内部怎么处理、怎么生成,你管不着。

    但现在有一种替代方案正在重新回到聚光灯下——LLM Steering(大语言模型引导)。这不是什么新概念,早在Anthropic做Golden Gate Claude的时候就引发过关注。只是以前它太重了,需要A100级别的GPU和PyTorch加TransformerLens,普通开发者根本玩不起。而DeepSeek-V4-Flash加上一个叫DwarfStar 4的工具,把这个门槛降到了单张RTX 4090就能跑。

    Steering到底是什么,跟提示词有什么区别

    打个比方。提示词就像你给一个人写了张纸条:”请你用简洁的语气回答”,这个人看了纸条,可能前两句照做了,聊着聊着又回到啰嗦的老样子。Steering则像你直接拧了这个人脑子里一个名为”简洁度”的旋钮,每一句话都说出来之前,这个旋钮都在生效。

    技术上的实现也不复杂。Steering的核心是对比对(Contrast Pair)——让模型分别处理两个条件,比如”简洁回答”和”详细回答”,记录某一层激活值的差异,算出平均差值作为”简洁方向向量”。之后在正常的推理过程中,把这个向量加到对应层的激活值上,模型的输出就会不自觉地偏向简洁。

    提示词管的是输入,Steering管的是过程。前者是”请你这样做”,后者是”我帮你这样做”。每个token生成时都在施加影响,所以效果在整个输出中保持一致。

    为什么以前没流行起来

    Steering概念好是好,但有三个硬伤一直挡在前面。第一,它只适用于开源模型——你需要访问模型内部每一层的激活值,而OpenAI和Anthropic的API不可能给你这个权限。第二,以前做激活值分析需要搭建PyTorch + TransformerLens的完整环境,硬件起步就是A100。第三,大多数Steering能实现的效果,其实用提示词也能凑合达到,多花几行字就完事了。

    所以之前Steering基本是大厂实验室的自留地,Anthropic拿它做可解释性研究,学术界拿它写论文,一线开发者完全用不上。

    DeepSeek-V4-Flash + DwarfStar 4改变了什么

    两个关键因素。DeepSeek-V4-Flash本身就是一个针对推理效率优化过的模型,能在相对有限的显存上运行,同时保持了不错的推理质量。而DwarfStar 4是llama.cpp的一个分支,专门为特定模型系列加了激活值钩子,把”提取和注入激活值”这个操作简化到了几乎一条命令就能完成。

    这意味着什么?以前你需要一个有A100的实验室和一整套PyTorch环境,现在你只需要一张4090和几行命令就能跑完整个Steering实验的流程。门槛的降低是数量级的。

    能拿它干什么

    • 语气一致性:让模型在长对话中始终维持特定的语气和风格,不会漂移
    • 领域偏移:不用微调,就让模型的输出偏向金融、医疗或法律风格(但只影响表达框架,不影响事实准确性)
    • 安全防护:构建安全拒绝向量,在推理时注入作为轻量级护栏
    • 上下文压缩:把原本需要大量token描述的约束条件压缩成一个向量,省出上下文窗口

    不过也别太乐观。Sean Goedecke在他那篇广为流传的文章里提到,Steering目前还有明显的局限性:你很难精确理解一个激活值差异到底编码了什么信息,副效应可能出现在不相关的任务上,而且在一个领域构建的向量未必能迁移到另一个领域。


    从黑盒喊话到白盒调参

    Bagua AI的文章里有一个观点我觉得很到位:过去几年,行业一直在把LLM当黑盒,用提示词从外面”喊”它。Steering的复兴代表了一个转变——我们从外部喊话,变成从内部调参。这不仅仅是效率优化,而是机械可解释性(Mechanistic Interpretability)走向工业化应用的第一步。

    对实际做开发的团队来说,Steering目前最直接的价值在于替代那些越来越臃肿的系统提示词。与其花500个token约束模型行为,不如提取一个向量注入进去,既省上下文窗口又稳定。这个账,但凡做过复杂Agent系统的人都会算。

    竞争壁垒正在从”提示词工程”转向”理解内部表征”。谁能读懂模型的激活空间,谁就能更好地控制模型。这项技能在未来可能比写prompt值钱得多。