分类: AI资讯

聚焦前沿人工智能动态,速览行业热点、技术突破、产业风向与实用 AI 干货,紧跟科技潮流,第一时间掌握 AI 最新趋势。

  • OpenAI Codex 现已能控制你的 Windows 电脑

    OpenAI 的 Codex 在 Mac 端上线之后,现在终于轮到 Windows 用户了。这次更新把 computer use 功能带到了 Windows 平台,意思是这个应用现在能”看见”你的屏幕,还能在你的设备上直接执行各种任务。

    不用坐在电脑前也能管任务

    OpenAI 同时表示,你现在可以通过 ChatGPT 应用在离开电脑的时候管理和查看 Codex 的任务执行情况。这对需要跑长任务的开发者来说挺实用的——不用一直守在屏幕前,手机上就能看进度。

    Codex 的 computer use 功能正式登陆 Windows,AI 编程助手从”帮你写代码”进化到”直接帮你操作电脑”。


    Mac 端先跑,Windows 跟上

    事实上 Codex 的 computer use 功能在 Mac 上已经跑了一阵子了,这次 Windows 版本的到来算是补齐了主流桌面平台的覆盖。OpenAI 在 X(原 Twitter)上还专门发了条推文:”Windows users, this one’s for you.”,语气倒是挺轻松的。

    这个功能本质上是让 AI 能够理解屏幕内容并模拟人类操作——点按钮、填表单、切换窗口,都在这个能力范围内。对于需要做 UI 自动化测试或者批量操作的场景,这比传统的脚本方式要灵活得多。


    和 Claude 的 computer use 打对台

    Anthropic 的 Claude 早就有了类似的 computer use 能力,现在 OpenAI 把这块能力也补上了,两个头部玩家在”让 AI 直接操作电脑”这个方向上的竞争又多了一个维度。区别可能在于 OpenAI 把这套能力和 Codex 的编程场景绑得更紧——你写的代码,Codex 可以直接帮你跑起来、点按钮、看结果。

  • XCENA拿了一轮1.35亿美元:AI的最大瓶颈不是算力,是内存

    做AI芯片的公司在2026年并不稀奇,但一家韩国初创公司拿了1.35亿美元融资,理由是”AI的最大瓶颈不是算力,是内存”——这个说法至少让投资圈认真听了。

    数据在CPU、GPU、内存之间来回跑,每一次都要钱

    XCENA的核心判断很简单:你现在每次跟AI说一句话,数据都要在内存、CPU、GPU之间跑一个来回。数据从内存取出来,CPU预处理一遍,送到GPU算,结果再写回内存。生成一个词要走一遍这个流程。

    这不是纯理论问题。它意味着你每用一次AI,都伴随着一笔不算小的数据传输成本。日活几亿次请求的规模下,这个开销是真实的。

    XCENA的估算是:原本需要10台服务器才能跑完的AI推理任务,如果用他们的方案,1台就够了。

    把计算搬到内存旁边去

    他们的办法是做一枚叫MX1的芯片,思路叫”存算一体”——计算不要老盯着GPU做,把一部分活儿搬到内存模块附近完成。

    具体说,MX1通过CXL(Compute Express Link,一个专门连接处理器和内存的高速通道)跟CPU对接,把预处理、KV缓存管理、数据缓存这些事情,在内存模块里面直接做完。数据不用出门,结果也不用搬回来。

    XCENA MX1芯片
    XCENA MX1芯片原型(图源:TechCrunch)

    技术上有几个值得说的地方。MX1基于开源RISC-V指令集设计,里面有数千个小型高效核心,专门为数据搬运和预处理优化过。竞争对手Marvell的方案只用少量通用核心,理论上效率有差距。

    XCENA还做了垂直整合——内存层级、互联总线、DRAM控制器全是自研的。大多数芯片公司会把这类工作外包,他们选择自己做,理由是只有全栈控制才能把内存效率压榨到极限。

    三星、SK海力士的前员工出来创业,时机刚好

    这家公司2022年创办,三位创始人Jin Kim(CEO)、Dohun Kim(CTO)、Harry Juhyun Kim(CPO)全部来自三星和SK海力士。做内存的人出来做AI基础设施,这个组合在2026年看起来挺合理的。

    本轮1.35亿美元由韩国VC机构Atinum、IMM Investment联合领投,跟投方包括Corstone Asia、老股东SBI Investment、Mirae Asset Capital。公司累计融资已达1.85亿美元,估值5.7亿美元。


    一个有趣的行业背景:2026年5月,三星、SK海力士、美光三大内存芯片厂商的市值首次同时突破1万亿美元。内存价格的上涨和AI需求的持续拉动,正在把”内存中心架构”从学术概念推向产业现实。

    MX1目前还在原型阶段,预计2026年底在三星代工厂量产,2027年开始产生收入。目标客户很明确:每年在AI基础设施上花几百亿美元的超大云厂。对这些公司来说,内存效率提升5%,可能就意味着几亿美元的成本节省。

    XCENA不直接跟英伟达在训练侧竞争——他们瞄准的是推理侧的内存密集型层。这个位置刚好卡在GPU算力和内存带宽之间的夹缝里,是一个有理由存在的细分市场。

  • Anthropic估值超OpenAI逼近1万亿美元,Claude Code三个月烧出9650亿

    Anthropic完成了一轮让整个硅谷侧目的融资。650亿美元进账,投后估值9650亿美元,这家公司现在的身价已经把OpenAI甩在了身后。

    从3800亿到9650亿,只用了3个月

    今年2月,Anthropic的估值还是3800亿美元。3个月后再融资,直接飙到9650亿。这种涨幅在AI圈也算是现象级的。

    本轮由Altimeter Capital、Dragoneer、Greenoaks和红杉资本联合领投,同时还包含了此前承诺的150亿美元投资(其中亚马逊出了50亿)。作为对比,OpenAI在3月下旬完成1220亿美元融资后,估值为8520亿美元。

    Anthropic的年度经常性收入已经达到470亿美元,远高于今年早些时候的300亿美元,也比去年同期的100亿美元高出近4倍。

    营收暴涨的核心驱动力是Claude Code——这款AI编程助手正在成为越来越多开发者和企业的标配工具。Anthropic首席财务官Krishna Rao的话说得很直白:Claude在客户群体里越来越不可或缺,这笔钱就是用来满足历史性需求的。

    Anthropic融资估值超OpenAI
    Anthropic最新一轮融资650亿美元,估值达9650亿美元(图源:CNBC)

    三强争霸,都在准备上市

    头部AI公司的IPO竞赛已经打响。马斯克的SpaceX(旗下有SpaceX AI)上周提交了招股说明书,合并后估值1.25万亿美元。OpenAI也准备在未来几天内提交保密招股书,最早今年9月挂牌。

    Anthropic虽然在幕后也在筹备IPO,但时机还不明确。毕竟手里有650亿美元现金,并不急着上市。真正让外界关注的是,它是否已经走到了”盈利”这个AI公司集体梦寐以求的节点。

    同期发布的Claude Opus 4.8和具备高级网络安全能力的Claude Mythos Preview,也在向市场传递一个信号:Anthropic不只是钱多,技术也在往前走。


    有意思的是,这轮融资完成后,全球AI版图上估值最高的私有公司头衔,正式从OpenAI交棒给了Anthropic。而就在一年多前,绝大多数人还认为这个位置非OpenAI莫属。

    资本用脚投票的背后,是Claude在企业级市场的真实渗透力。比起OpenAI消费者端的耀眼数据,Anthropic的企业客户粘性可能是它估值能够持续走高的更底层逻辑。

  • CNN把Perplexity告了,AI版权战打到新战场

    CNN正式对AI搜索公司Perplexity提告,指控它逐字复制CNN的报道内容,还为付费墙后面的内容提供摘要。这起诉讼让Perplexity的法律麻烦又多了一桩。

    “人类记者去报道、研究、撰写、创作的内容,Perplexity在未经许可、没有补偿的情况下直接拿去用。”CNN在诉讼中写道。

    谈判破裂后直接告上法庭

    CNN和Perplexity其实谈过合作。2025年10月,双方曾就Perplexity的”Comet Plus”订阅服务使用CNN内容进行过谈判,但因为对AI生成答案中CNN内容的使用限制谈不拢,最终没有签成协议。CNN在11月正式发函要求Perplexity停止未经授权使用其内容,据说Perplexity根本没回信。

    CNN在起诉书中举了一个例子:只要用Perplexity搜索一篇文章标题——《What’s next for Minneapolis? A shaky promise, mounting tensions and the fight for control》——它就能生成该报道”大量逐字复制”的内容片段。


    Perplexity的回应只有一句话

    面对CNN的指控,Perplexity发言人的回应相当简短:”事实是不能被版权化的。”这句话基本上概括了Perplexity对整个AI版权争议的核心立场——它认为AI生成的内容是对事实的重组,不构成侵权。

    这个立场在法庭上能不能站得住脚,目前还没有定论。但CNN不是唯一一个这么想的,已经起诉Perplexity的机构包括《纽约时报》、大英百科全书、韦氏词典、新闻集团(华尔街日报母公司)、亚马逊和Reddit。

    • 《纽约时报》是最早对Perplexity提告的媒体之一,目前案件仍在审理中
    • 新闻集团旗下《华尔街日报》等媒体的诉讼,核心争议也是AI摘要是否构成”衍生作品”
    • 亚马逊和Reddit的诉讼则更侧重于数据爬取和平台条款违反

    这场官司会影响到普通用户吗

    短期来看不会。Perplexity的搜索服务还在正常运行,这起诉讼从立案到判决通常要拖上好几年。但它释放了一个明确信号:内容生产商对AI公司的忍耐已经到了极限,接下来的谈判桌上,内容授权费用会成为一个越来越重的成本项。

    对做AI产品的公司来说,这其实是个提醒——爬数据归爬数据,但真被人告上法庭,光靠”事实不能版权化”这句话未必够用。

  • 英伟达砸完200亿美元,Groq自己又要融6.5亿美元

    英伟达刚跟Groq做完一笔200亿美元的”非收购式招聘”,这家AI芯片初创公司自己又要融资了。据Axios报道,Groq正在寻求6.5亿美元的新一轮融资,投资方正是它现有的那些支持者。

    Groq做的事跟英伟达不太一样。它押注的是AI推理环节——也就是模型接收用户提示后生成回答的那个阶段。现在整个行业都在疯抢推理算力,训练的需求反而没那么紧张了。

    英伟达那笔200亿美元的交易到底买了什么

    2025年12月,英伟达和Groq签了一笔结构很特殊的协议。表面上看不是收购,但Groq的多名高层直接跳槽去了英伟达,同时Groq把硬件技术授权给了英伟达使用。如果这是一笔正常的收购,它会是英伟达历史上最大的一笔。

    对Groq的投资者来说,这反而是个好消息——他们拿到了现金回报,现在又被邀请继续投钱,支持Groq把推理云(Inference Neocloud)业务做起来。


    推理为什么比训练更值钱

    训练一个大模型是一次性投入,而推理是每次用户发消息都要消耗算力的持续过程。ChatGPT每天要处理几十亿次请求,每一次都是推理。这个市场的规模,某种程度上比训练市场还要大。

    Groq的芯片设计思路跟英伟达完全不同,它追求的是极致的推理速度,而不是训练所需的大规模并行计算。这套打法能不能跑通,6.5亿美元的新融资会给出部分答案。

    • 现有投资者Disruptive和Infinitium已承诺,若其他投资者认购不足,将全额补足本轮融资
    • 临时CEO Adam Winter和临时CFO Matt Eng领导业务转型
    • Groq推理云直接面向开发者和企业提供API服务,与英伟达的芯片销售模式形成差异

  • 这家公司免费帮你打扫房间,条件是记录全过程用来训练机器人

    AI训练数据初创公司Shift最近在社交媒体上宣布了一个听起来有点奇怪的优惠:他们将免费为用户提供家庭清洁服务,条件是允许设备记录清洁人员的工作过程,以此收集高质量的机器人训练数据。

    该公司的”魔法帽”计划本质上是在用未来的机器人能力,换取今天的真实世界动作数据。清洁人员戴着配有摄像头的帽子工作,记录他们如何擦洗、吸尘、除尘、整理和清洗——这些都是未来家庭服务机器人需要掌握的核心技能。

    “你得到一间一尘不染的公寓。我们得到训练数据。双赢。”——Shift官方网站

    魔法帽里有什么?

    清洁人员戴着一顶看起来有点尴尬的白色帽子——官方称之为”魔法帽”——里面藏着一台摄像头,从清洁人员的第一视角捕捉工作画面。

    Shift清洁人员戴着魔法帽工作
    Shift的”魔法帽”从清洁人员第一视角记录工作过程(图源:The Verge)

    当然,让别人的摄像头进到你家里,这本身就是你得”支付”的代价。Shift在官网上说客户的”隐私得到充分保护”,敏感细节(如姓名、面部、屏幕和个人信息、身份证)在用于AI训练之前会被模糊化和匿名化处理。


    越脏越好?

    Shift在宣传视频中说:”今天清洁的每一间房子,都为明天能自己清洁的房子打下基础。”

    有意思的是,该公司表示“更具挑战性的清洁环境”可能特别有用。换句话说,你家越脏乱,对训练机器人来说反而越有价值。当然,清洁人员”可以拒绝执行任何他们感到不舒服的具体任务”。

    不只是清洁

    清洁可能只是开始。Shift的视频显示,该公司最终计划扩展到管道维修、烹饪和建筑等其他领域。

    Shift表示,它已经向15个国家的数万人支付报酬,让他们通过应用程序记录自己的活动。这个市场正在增长——用于训练AI系统和机器人的人类任务录像,正成为AI数据竞赛中的稀缺资源。


    目前只在纽约,很快扩展到更多城市

    这项免费清洁服务目前仅在纽约提供。但联合CEO兼联合创始人Bercan Kilic表示,很快将在旧金山、伦敦、苏黎世和慕尼黑推出。

    免费清洁只是”限时”优惠,但这个模式其实触及了一个更大的趋势:AI公司越来越愿意用真实世界的服务,来换取训练下一代机器人所需的高质量数据。

    • 清洁人员戴”魔法帽”第一视角记录工作过程
    • 隐私保护:敏感信息在训练前被模糊化和匿名化
    • 目前仅在纽约,即将扩展至旧金山/伦敦/苏黎世/慕尼黑
    • Shift已在15个国家拥有数万名数据贡献者
    • 未来计划扩展至管道/烹饪/建筑等更多家庭场景
  • 这家芯片初创把计算搬进内存,1.35亿美元融资到手

    每次你向ChatGPT提问,你的请求都会触发一场数据接力赛。信息离开内存,经过CPU预处理,传输到GPU进行繁重计算,然后再返回——而AI生成的每一个字,整个流程都会重复一遍。

    瓶颈是结构性的。这意味着每一个请求中,数据都要经过行业中一些最昂贵、功耗最高的芯片进行路由。这种低效正是XCENA试图解决的问题——这家在韩国和美国都设有办事处的初创公司,刚刚在B轮融资中筹集了1.35亿美元,估值达5.7亿美元。

    “几十年来,CPU和GPU都变得更智能了。内存从来没有。XCENA想改变这一点。”——创始人Jin Kim

    把计算搬进内存

    XCENA的芯片MX1通过CXL(计算快速链接)连接到CPU——本质上是处理器和内存之间的专用快车道——在数据需要离开内存模块之前就对其进行处理。它是把计算带到数据附近,而不是反过来。

    该公司声称,以前需要10台服务器完成的工作,现在可能只需要1台就可以完成。

    XCENA MX1芯片原型
    XCENA MX1芯片原型(图源:TechCrunch)

    为什么是内存,不是算力?

    XCENA的业务押注于一个论点,即”推理不仅是计算问题;它越来越是一个内存扩展问题。”

    虽然GPU擅长矩阵乘法——AI模型训练背后的繁重数学计算——但周围的许多数据编排,包括预处理、KV缓存管理(存储之前的对话上下文的系统,这样模型就不需要重新处理它)、数据缓存,仍然在CPU上运行。XCENA的芯片在内存模块本身内直接处理这些任务。


    创始团队来自三星和SK海力士

    XCENA首席执行官Jin Kim于2022年与首席技术官Dohun Kim、首席产品官Harry Juhyun Kim共同创立了这家初创公司,三人都来自三星和SK海力士——这两家内存巨头为英伟达的GPU提供芯片。

    本月,主导全球内存芯片市场的三家公司——三星、SK海力士和美光——市值首次都超过了1万亿美元。XCENA押注的是,AI基础设施正朝着以内存为中心的架构更广泛地转变。

    竞争对手和差异化

    XCENA最接近的竞争对手包括Astera LabsMarvell,这两家纳斯达克上市公司都在研发下一代内存连接技术。

    差异化因素在于知识产权。XCENA有数千个核心,每个核心都基于RISC-V构建并专门针对数据处理进行了优化。相比之下,Marvell的方法依赖少数几个通用核心。


    时间表和挑战

    MX1目前仍然是原型。大规模生产的芯片预计将在2026年底从三星的代工生产线下线,该公司预计从2027年开始产生收入。

    XCENA的理想客户是每年在AI基础设施上花费数百亿美元的超大规模企业,即使内存效率有微小的提升,也可能意味着数亿美元的节省。

    • B轮融资1.35亿美元,估值5.7亿美元
    • 累计融资总额达1.85亿美元
    • MX1芯片基于RISC-V开源架构
    • 目标客户:超大规模AI基础设施运营商
    • 量产时间:2026年底;收入预期:2027年
  • Claude Opus 4.8来了:一口气跑1000个子智能体,代码审查聪明4倍

    昨天(5月28日),Anthropic把Claude Opus 4.8扔了出来。这次更新的重点很明确:让AI在写代码这件事上更像一个能独立工作的资深工程师,而不是一个需要你步步盯着的高级补全工具。

    代码缺陷少4倍,这才是最值钱的地方

    Opus 4.8最核心的改进,是代码质量。Anthropic说,这个模型生成的代码里有缺陷但没被标记出来的概率,比上一代低了大约4倍。对那些把AI辅助编程塞进生产流程的团队来说,这个改进直接等于少掉很多坑——未检测到的代码缺陷,在 downstream 产生的修复成本是 exponentially 增长的。

    基准测试的数据也佐证了这一点:代理编码得分从64.3%爬到了69.2%,使用工具的多学科推理从54.7%提到57.9%,知识工作得分从1753分涨到1890分。数字看起来增幅不大,但在AI模型迭代里,这种全方位的几个百分点提升,往往意味着实际使用中”可用”和”好用”之间的差距。

    Anthropic对Opus 4.8的描述是:”更敏锐的判断力、更诚实地展示其进展,以及比前代模型更长时间独立工作的能力。”这三个点,其实正好对应了企业开发者对AI编码助手最头疼的三个问题:判断不准、爱装懂、干两分钟就得人工介入。

    动态工作流:1000个子智能体一起干活

    这次最炸裂的功能叫”动态工作流”(Dynamic Workflows),目前在research preview阶段。简单说,就是Claude现在可以写编排脚本,生成并管理几十到几百个并行子代理,从任务启动到完成全程自动跑。

    上限是每个运行最多16个并发子代理、总共1000个子代理。实际场景是什么样子?比如你要迁移一个几十万行代码的代码库,以前你得手动拆任务、分配、汇总,现在Opus 4.8可以直接把整个代码库迁移从启动做到生成可合并的拉取请求,中间不用你手动协调。

    这个功能一旦正式上线,对大型代码库维护团队来说是个.game changer。不需要额外写编排逻辑,不需要手动拆解任务,模型自己决定怎么把大任务碎成小任务、怎么并行跑、怎么汇总结果。

    快速模式:快2.5倍,便宜3倍

    Anthropic还把快速模式(Fast Mode)大幅升级了。新版本的快速模式比标准推理快大约2.5倍,而成本只有之前Opus模型快速模式的三分之一。定价是每百万输入token 10美元、每百万输出token 25美元。

    新的”努力控制”(Effort Control)设置也值得提一下:用户可以调整Claude在任务上投入的计算量。Opus 4.8默认是”高努力”,Anthropic认为这对大多数工作负载来说是最佳平衡。如果你要处理的任务比较轻量,可以调低努力级别来省钱。

    已经在哪能用

    从昨天开始,Opus 4.8已经在以下平台可用:

    • Claude API——直接给开发者和平台构建者用
    • Amazon Bedrock——集成到AWS基础设施里
    • Google Cloud Vertex AI——GCP托管AI服务中可用
    • Microsoft Foundry——通过Microsoft的AI开发平台访问

    已经在生产环境跑Opus 4.7的团队,迁移基本无感——模型标识符更新一下就行,价格没变,这也是Anthropic故意做的”升级成本中性”设计。

    下一步:Mythos级模型已经在路上

    Anthropic已经确认正在开发新一代”Mythos级”模型,会在”未来几周内”发布。目前关于架构、能力基准或定价的细节都没披露,但Opus 4.8看起来更像一个短期过渡版本,而不是一个长周期旗舰。这也延续了Anthropic在2025年和2026年加速模型更新的节奏——不再憋大招,而是快速迭代、快速铺开。

    对于每天都在跟AI编码助手打交道的开发者来说,Opus 4.8最直观的感受可能就是:它犯傻的频率低了,能独立跑的时间长了,而你需要手动介入的次数——终于开始明显减少了。


  • OpenAI基金会砸2.5亿美元,帮劳动者应对AI冲击

    前几天OpenAI基金会扔出一个重磅消息:拿出2.5亿美元,专门帮那些被AI波及的劳动者和社区做转型。这笔钱是去年OpenAI重组后,那个控制OpenAI的非营利组织拿到1300亿美元股权之后的第一次大动作。

    1300亿美元的非营利巨头

    去年OpenAI重组的时候,很多人没注意到一个细节——非营利组织保留了OpenAI营利性业务26%的股权,按当时估值大约是1300亿美元。一夜之间,这个原本只是小打小闹的赠款机构,直接变成了科技圈最富有的慈善组织之一。

    今年3月,OpenAI公开承诺未来12个月通过基金会至少投入10亿美元,重点盯住生命科学研究、AI素养、公民建设和经济机会这几个方向。而这次的2.5亿美元,就是这10亿美元承诺里第一批真正拨出去的钱。

    OpenAI基金会在声明里说得很直白:”当前的变化速度意味着我们正确应对的窗口比习惯的要短,而错误应对的代价是巨大的。”这句话背后,是对AI冲击劳动力市场紧迫性的真实认知。

    钱到底花在哪

    基金会把这2.5亿美元拆成了三块,跟传统慈善机构很不一样——他们不仅要给钱,还要自己下场做项目。

    第一块是研究基础设施。他们觉得目前缺的是独立、严谨的劳动力市场影响分析,太多炒作和恐慌,太少实打实的数据。基金会要自己建团队,做中立的预测和研究。

    第二块是直接劳动者支持。目标群体很明确:客服、金融后台运营、入门级软件岗位——这些已经被AI工具大量替代的领域。基金会会资助那些给失业劳动者提供转型培训的组织。

    第三块是AI驱动的经济模拟。说白了就是用计算建模,画出区域经济在国家层面随着AI能力扩展可能发生的变化图谱。产出这些数据,是给政策制定者、教育者和雇主用来规划培训和转型路径的。

    Sam Altman的态度转变

    有个细节挺有意思。Sam Altman今年早些时候还跟伴侣Oliver Mulherin一起签了”捐赠誓言”,但他最近几个月公开表态软化了不少。他承认:”我很高兴我错了——我曾以为到这个时候,入门级白领工作的消失会比实际发生的影响更大。”

    这种软化,跟基金会一边说”失业担忧真实存在”、一边又强调”主动干预窗口正在缩小”的谨慎态度形成了微妙的对照。Altman的个人态度在变,但基金会的行动逻辑没变:先把钱和资源到位,不管AI到底会不会真的消灭大量工作岗位,提前布局总没错。

    现实已经发生了

    基金会这个动作不是凭空来的。最近几个月,已经有一堆公司把裁员和效率措施直接跟AI采用挂钩了。Block和Standard Chartered在近期的裁员公告里明确提到了AI带来的效率提升,说明”AI导致失业”已经不是什么遥远的理论风险,而是正在发生的事。

    这场辩论的核心其实是:AI带来的经济收益,到底会广泛惠及普通劳动者和社区,还是主要归股东和高技能技术人员所有?OpenAI基金会砸这2.5亿美元,等于是在用真金白银表态:他们想成为塑造这个答案的积极参与者,而不只是旁观者。

    接下来的看点就是:这个拥有1300亿美元股权的基金会,能不能真的把规模转化成那些正在经历技术转型的劳动者手上可感知的帮助。首批具体项目公告和合作组织,预计在今年下半年公布。


  • GPT-5.5把316道黑客题做对292道,网络安全评测体系被AI干碎了

    2026年5月27日,澳大利亚研究机构Lyptus Research发布了一份让网络安全圈相当震惊的报告:GPT-5.5在316道进攻性网络安全任务中解出了292道,正确率高达92.4%,直接把这套评测体系干到了”饱和”状态——剩下的24道题不足以支撑有统计意义的能力曲线拟合,评估方法宣告失效。

    换句话说,用来衡量AI黑客有多危险的尺子,先被AI自己弄坏了。

    “我们2025年12月搭建这套测试时,选的还是全球最难的题。2026年3月数据就出现饱和苗头。到5月,饱和已经成为事实。”——Lyptus Research 报告

    316道题,覆盖了黑客的”全科”

    这套评测不是纸上谈兵。316道任务覆盖了7个基准领域,包括漏洞利用、CTF夺旗赛题目、真实CVE漏洞复现三类,每道题都设置了人类安全专家的完成时间作为基线参考。

    GPT-5.5的表现相当于什么水平?Lyptus的评估是:顶级黑客团队的水平。不是脚本小子的水平,是那些能在真实环境中找到零日漏洞、写出可靠利用代码的人的水平。

    更有意思的是Token预算对能力的影响。在最难的基准CyberGym上,GPT-5.5在200万Token预算下正确率只有54.4%;推到5000万Token时,正确率飙升至86.4%——同一个模型,只因为给的算力更充裕,正确率涨了32个百分点。英国人工智能安全研究所(AISI)的独立研究也证实:给到1亿Token时模型能力仍在上涨,还没看到平台期。


    AI黑客能力每5到6个月翻一倍

    Lyptus从2024年开始追踪相关数据,拟合出的增长曲线相当吓人:AI进攻性网络安全能力,每5到6个月翻一倍

    这个”时间地平线”指标衡量的是:一个AI系统完成顶级难度任务平均需要多少时间(通过不断增加算力预算来测量)。2026年初,Claude Opus 4.6的时间地平线是3.2小时,GPT-5.3 Codex是3.1小时。两个月后,GPT-5.5的时间地平线直接拉到了5.1小时——如果放开算力上限让它冲过12小时的测量上限,这条曲线根本画不出来。

    问题在这里:时间地平线方法论原本的假设是,总会有比当前模型能力更难的题来锚定曲线的拐点。但GPT-5.5把所有题都做完了,拐点消失了,曲线无法拟合。评测体系不是被证伪了,是被模型能力的增长速度远远甩在了后面。

    头部厂商已经在”控”了

    意识到这个能力水平意味着什么之后,头部厂商的动作相当迅速:

    • Anthropic:4月发布Claude Mythos Preview,但因为网络安全能力过强,决定不公开发布。配套推出了Project Glasswing,只把模型部署给关键基础设施的防御方使用。
    • OpenAI:给GPT-5.5的网络安全能力评级为”High”(只比最高级”Critical”低一档),所有攻击相关能力均通过”Trusted Access for Cyber”门控,不是谁都能调用。
    • METR独立评估:拟合出Claude Mythos的时间地平线至少为16小时,但无法给出精确点估计——这意味着连独立评估机构都跟不上模型的边界了。

    最麻烦的问题:闭源能力迟早会开源

    Lyptus测量了一个叫”适应缓冲期”的指标:从一个闭源前沿能力首次出现,到同等能力出现在开源模型里,平均时间差是多少。在进攻性网络安全领域,这个数字是5.7到13.1个月

    按当前的速度,Mythos和GPT-5.5级别的攻击能力,2026年年内就可能以开源形式落到任何人手里。到那时候,没有”Trusted Access”门控,没有使用场景限制,只有一块显卡和一点好奇心。

    网络安全圈子里的普遍看法是:防御方本来就需要假设”攻击者拥有无限资源”,但当一个高中生也能在本地跑一个GPT-5.5级别的攻击模型时,”无限资源”的假设就不再是理论讨论了。

    连”最易量化”的领域都跟不上了

    这份报告最让人不安的地方,其实不在92.4%这个数字本身,而在于它暴露了一个结构性困境:网络安全是少数有明确成功判据(漏洞找到了没有?系统打穿了没有?)因而相对容易量化的AI能力领域。连这个领域的评估体系都已经失效了,那些更模糊、更难量化的能力维度——推理、规划、社会工程——的评估困境只会更突出。

    如果AI能力真的按照每6个月翻一倍的速度增长,一年后是当前的4倍,两年后是16倍。在通往AGI乃至ASI的路上,失效的评估体系只会越来越多,而不是逐渐被修好。

    对于安全研究者来说,这份报告给出的信号很直接:静态防御规则已经不够用了。当攻击方可以用AI实时生成针对特定目标环境的漏洞利用代码,防御方也必须用AI来对抗AI——而且是同样聪明、同样快速的AI。