标签: AI技术

  • ChatGPT盯上你的钱包:连接银行账号,AI帮你管钱

    ChatGPT开始碰金融这块蛋糕了。2026年5月,OpenAI给Pro用户推送了一项新功能:通过Plaid连接你的银行和金融账户,直接在你的聊天框里看投资组合、查消费记录、盯即将到期的账单。

    只读不写,钱动不了

    先说最关键的安全问题。ChatGPT这次明确做了权限隔离:只能读,不能动。它看得到你的账户余额、交易记录、持仓情况,但转不了账、改不了账户信息、也看不到完整账号号码。

    连接流程走的是Plaid——这家公司你可能没听过,但它几乎是欧美金融数据接口的标配,支持超过12000家金融机构,包括摩根大通、花旗、嘉信理财、富达、Robinhood、美国运通这些大牌。Plaid负责把你的账户数据安全地接进ChatGPT,OpenAI拿到的只是读取权限。

    接入Plaid之后,ChatGPT能生成四个板块的仪表盘:投资组合表现、消费活动、活跃订阅项目、即将到期的账单。可视化可能需要几分钟来渲染,但数据是真的直接来自你的账户。

    默认用GPT-5.5 Thinking处理复杂推理

    这个金融功能默认调用的是GPT-5.5 Thinking模型,专门优化了涉及时间、债务、收入、长期目标的复杂金融推理任务。OpenAI自己做的基准测试里,GPT-5.5 Thinking在个人金融问题上拿了79分(满分100),GPT-5.5 Pro是82.5分——当然,这是OpenAI自己测的,第三方独立基准还得等等。

    实际用起来什么样?你可以问它:”我最近消费有没有异常波动?”或者”我想5年内买房,基于现在的储蓄节奏够不够?”连你的recurring订阅(比如Netflix、Spotify)也会被自动识别出来,提醒你哪些在烧钱。

    为什么现在做这件事

    OpenAI说,每个月有超过2亿人在ChatGPT上问金融相关问题。以前用户得手动把自己的财务情况打进去,AI才能给建议;现在直接连数据,建议的精准度会上一个台阶。

    这个功能的开发其实在OpenAI收购Hiro Finance团队之前就启动了。Hiro是做金融AI的初创公司,4月份被OpenAI收了,同期还有个性化投资应用Roi也被收入囊中。看得出来,OpenAI在金融这条线上已经布局了一段时间。


    目前只给Pro用户用,每月100美元

    这个功能目前先向美国地区的ChatGPT Pro用户开放,网页端和iOS端都能用。Pro订阅每月100美元,早期用户的反馈会用来打磨产品,之后会逐步放开给Plus用户(每月20美元)。

    想用的人可以在ChatGPT侧边栏找到”金融”入口,点”开始使用”,然后跟着Plaid的流程走就行。也可以用更懒的方式:直接在聊天框里输入”@Finances, connect my accounts”,ChatGPT会帮你把流程拉起来。

    你可以随时断开,数据保留30天

    不想用了?去”设置 > 应用 > 金融”里面断开账户连接就行。断开之后,同步过来的金融数据会在30天内从ChatGPT的服务器端删除。你存在”金融记忆”里的背景信息(比如”我计划明年买房”)也可以单独删除。

    临时聊天模式不会碰你的金融账户,已有的”退出模型训练”设置也会延续到这个金融功能里。该有的隐私开关,基本都有。

  • AI圈炸了:Andrej Karpathy加入Anthropic,Claude预训练迎来最强外援

    2026年5月19日,AI圈投下一颗重磅炸弹:Andrej Karpathy正式宣布加入Anthropic,负责Claude模型的预训练工作。这位OpenAI联合创始人、前特斯拉AI总监的加盟,让本就白热化的前沿AI实验室人才争夺战再添一把火。

    他从OpenAI走到特斯拉,现在去了Anthropic

    Karpathy这个名字在AI圈分量很重。2015年他作为创始成员加入OpenAI,之后离开去特斯拉带队Autopilot和FSD(完全自动驾驶)项目,2022年离开特斯拉短暂回归OpenAI,2024年再次离开后创办了AI教育初创公司Eureka Labs。

    现在他选择加入Anthropic,向预训练负责人Nick Joseph汇报。预训练是大语言模型最烧钱、最吃算力的阶段——直接决定模型的核心知识储备和能力上限。让Karpathy来挑这个担子,Anthropic显然是认真的了。

    “我对教育仍抱有深切热情,计划后续恢复相关工作。”Karpathy在宣布加入时特意提到了教育——他的Eureka Labs专注于用AI助手辅助学习,他曾通过在线课程和公开讲座教过无数人神经网络和大语言模型。教育这条线,估计还会在他未来的工作里占一席之地。

    “AI辅助AI研究”:用Claude训练Claude

    这件事最有意思的地方在于Anthropic给Karpathy安排的额外任务:搭建一支团队,专门研究如何用Claude本身来加速预训练研究。换句话说,他们在尝试让AI帮忙训练下一代AI——而且是同一个系列的下一代。

    这个方向最近在前沿实验室里越来越常见。自己训练自己,听起来像是递归的自我进化,实际操作起来当然没那么玄乎,但确实能大幅压缩研发周期。如果Karpathy能把这套流程跑通,Claude的迭代速度可能会上一个台阶。

    不只是Karpathy:Anthropic在囤人

    同一时间段,Anthropic还挖来了网络安全老将Chris Rohlf,他有20多年的安全研究经验,曾在雅虎安全团队、Meta、乔治城大学安全与新兴技术中心任职,现在加入Anthropic的前沿红队,专门给先进模型做极端风险压力测试。

    一边挖预训练大牛,一边补安全红线,Anthropic这套组合拳打得很清楚:模型能力要冲,安全底线也要守住。和OpenAI、Google DeepMind的竞争中,人才厚度正在成为决定胜负的关键变量之一。


    为什么这件事值得关注

    前沿AI竞争的本质,从来不只是算力堆叠和融资数字的比拼。最终决定ChatGPT、Claude、Gemini之间差距的,是那些真正懂大规模训练、能在架构和工程细节上做关键决策的人。Karpathy就是这种人。

    他加入Anthropic,对普通用户意味着什么?短期来看,Claude的能力上限和迭代节奏可能会超预期;长期来看,AI助手之间的能力差距,会因为这种级别的人才流动而加速分化。这场人才战的结局,最终会直接反映在你我每天用的AI工具里。

  • OpenAI声称解决80年数学难题,这次有数学家背书

    七个月前,OpenAI前副总裁Kevin Weil在X平台上高调宣布GPT-5解决了10个未解的Erdős问题,结果被证明那些”解”早就写在公开文献里。Yann LeCun和DeepMind的Demis Hassabis纷纷嘲讽,Weil只好默默删帖。

    这次OpenAI学乖了。2026年5月20日,他们声称新的推理模型推翻了Paul Erdős在1946年提出的几何猜想,而且这次找来了数学家Noga Alon、Melanie Wood和Thomas Bloom背书——正是Bloom上次公开批评OpenAI”严重误导”。

    Erdős数学问题示意图
    OpenAI称其模型发现了全新的几何构造族,推翻了近80年的数学共识(图源:OpenAI)

    不是专用系统,是通用推理模型

    OpenAI特别强调,这次产出证明的不是专门为数学设计的系统,而是一款通用推理模型。这意味着AI现在能处理更长的推理链,还能把不同领域的想法串起来——这种能力对生物学、物理学、工程和医学都有意义。

    “近80年来,数学家们一直认为最佳的可能解法大致类似于平方网格。现在OpenAI的一个模型推翻了这一认知,发现了一种全新的构造族,性能更优。”——OpenAI官方声明

    Thomas Bloom说:”人工智能正在帮助我们更全面地探索几个世纪以来我们建造的数学大教堂。还有哪些未被发现的美妙事物在等待着我们?”这位数学家上次可是OpenAI的批评者,他能出面背书,可信度比上次高多了。


    为什么这次可能真不一样

    上次翻车之后,OpenAI这次显然更谨慎了。除了发布公告,他们还专门拉来了几位数学家的支持性评论,其中Bloom运营的Erdős问题网站正是上次戳穿OpenAI夸大宣传的那位。

    如果这次真的站得住脚,这会是AI第一次自主解决数学领域核心的知名开放问题。但数学界向来谨慎,最终还得经过同行评审才能定论。OpenAI把详细证明放在了官网上,感兴趣的可以去扒一扒。

  • 一季度AI融资超1100亿:钱都流向了哪里?

    2026年刚过去一个季度,AI圈的融资数据就炸了。国内AI领域一季度融资总额超过1100亿元,比去年同期激增185.4%——这个数字意味着什么?去年同期的融资额大概是385亿元,今年直接翻了近三倍。

    核心数据:2026年一季度国内AI领域融资总额超1100亿元,同比激增185.4%;国内大模型迭代周期缩短至3个月以内,推理成本大幅下降。

    钱都流向了哪些赛道?

    最核心的两个方向是国产大模型和具身智能。国产大模型赛道的融资热度攀升很快,很多公司在短时间内完成了大额融资,资金主要投向三个方向:研发、算力、人才招揽。国内大模型的迭代周期已经缩短到3个月以内,推理成本大幅下降,商业化进程也在加速。

    具身智能是另一个融资热点。这个赛道的核心是让AI从“会说话”变成“会做事”,比如人形机器人、工业智能体等。很多投资方认为,具身智能是AI的下一个爆发点,所以愿意砸重金布局。


    融资资金的三大投向

    • 国产大模型迭代周期缩短至3个月以内,推理成本大幅下降
    • 具身智能成为融资热点,AI从“会说话”转向“会做事”
    • 融资资金主要投向研发、算力、人才招揽三大方向
    • 国内AI商业化进程加速,更多应用场景将落地
  • 诺基亚老将HMD的新玩法:给手机装上印度本土AI

    HMD(对,就是那个做诺基亚手机的芬兰公司)在2026年5月21日干了一件事:发布了一款中端安卓手机Vibe 2 5G,预装了印度AI公司Sarvam的聊天机器人Indus。这不是贴个图标那么简单,而是把一整个1050亿参数的大模型直接塞进了手机里。

    HMD Vibe 2 5G手机
    HMD Vibe 2 5G,售价114美元,预装Sarvam Indus AI助手

    为什么是印度AI

    Sarvam的Indus大模型有个很实用的能力:支持22种印度本土语言,还能在句子中间无缝切换语言(比如刚说了印地语,下一句直接切英语)。这对印度市场来说非常关键——印度的语言多样性意味着英语AI工具的实际覆盖面相当有限。

    HMD的CEO Ravi Kunwar说得很直白:第一阶段就是把Indus应用推给消费者,先让大家用起来,后面再考虑粘性和深度集成。这款Vibe 2 5G售价10999卢比(约114美元),配了6000mAh的大电池,定位就是平价走量。

    数据显示,Indus应用上线近3个月,在印度全平台的下载量只有29.3万次。作为对比,同期ChatGPT在印度的下载量是4390万次。差距是肉眼可见的。

    HMD的市场赌注

    HMD在2025年拿了印度功能机市场4%的份额,但智能手机市场几乎可以忽略——连前15名都没挤进去。所以这次跟Sarvam的合作,某种程度上是在赌一个差异化的切入点:把本土AI助手和平价硬件绑定,在大厂的英语AI工具覆盖不到的市场里找存在感。

    更有意思的是后续规划:HMD说未来几个月会推出集成Sarvam AI的功能机。功能机+本土语音AI,这个组合如果在印度跑通了,对其他新兴市场也有参考意义。

    Sarvam的融资故事

    顺带一提,Sarvam正在推进一轮3亿美元的融资,投后估值预计15亿美元。如果完成,它将成为印度融资额最高的AI初创公司之一。从这件事也能看出来,不只是美国和中国在卷AI——印度的AI本土化浪潮,才刚刚开始。

  • 做AI播客的Huxe倒了,大厂的跟风速度比你想的快

    前NotebookLM的开发者出来创业,做了一个叫Huxe的AI音频应用——你输入几个提示词,它就能生成一期播客或者播客系列。听起来很酷对吧?但就在2026年5月22日,这家公司宣布关停了。

    时机挺讽刺的。Huxe发布关停公告的前一天,Spotify刚刚推出了功能几乎一模一样的个人播客工具。这已经不是巧合了,这是AI消费级市场的常态——你辛辛苦苦做的创新功能,大厂两个月就给你做到自己的产品里,还不收你钱。

    Huxe AI音频生成应用界面
    Huxe的核心功能:输入提示词,生成播客

    为什么撑不下去

    Huxe不是没拿到钱。2024年底成立,拿了Conviction、Genius Ventures、Figma CEO Dylan Field、还有谷歌研究院首席科学家Jeff Dean的投资,总共460万美元。创始团队是前谷歌员工Raiza Martin、Jason Spielman和Stephen Hughes,履历相当能打。

    但问题出在产品形态上。”用提示词生成播客”这个核心功能,在2025-2026年之间被大厂们集体盯上了。NotebookLM先做了一遍,然后Adobe跟进了,亚马逊的Alexa也加了类似功能,ElevenLabs、Meta、谷歌……现在连Spotify都做了。你做一个独立应用,靠这个功能怎么跟免费的大厂生态竞争?

    Huxe在给用户的邮件里写得很委婉:”团队将转向新的项目,不会再继续开发这款产品。”没说具体原因,但答案其实很明显——赛道已经被碾平了。

    同类竞品也在挣扎

    不是只有Huxe一家碰到这种事。Anchor联合创始人做的Oboe(拿了a16z的1600万美元)和a16z speedrun孵化的Sun,都在做类似的”AI生成音频内容”赛道。但大趋势是一样的:AI模型能力越强,跨格式转换越容易,只做单一消费级模态的初创公司就越难维持长期活跃和收入。

    已安装Huxe的用户还能再用7天,之后公司会删除所有用户相关数据。算是体面的收场吧。

  • 2026年AI领域最值得关注的10件事

    2026年AI领域最值得关注的10件事

    MIT Technology Review最近发了篇文章,总结了当下AI领域最值得你盯着的10个方向。他们的记者和编辑盯了AI这么多年,这次第一次把答案浓缩成一份清单。

    这份榜单的灵感来自他们每年的《10项突破性技术》,但这次把视角投向了当下推动AI进步、改变权力格局的东西。我挑几个最有意思的跟你聊聊。

    AI Trends 2026
    MIT Technology Review总结的2026年AI十大重要趋势(图片来源:MIT Technology Review)

    人形机器人需要大量训练数据

    就像我们的文字成了大语言模型的训练数据一样,记录人类动作的海量视频现在正被收集起来,用来训练人形机器人。有些公司在搞庞大的”训练中心”,让工人重复完成任务;还有些公司让海外的陌生人远程操控”傀儡”机器人。这是个疯狂的尝试,而且没人能保证一定能成功。

    大语言模型还有很大挖掘空间

    大语言模型(LLM)曾经席卷全球。现在所有AI从业者都在追逐下一个重大突破。虽然容易实现的目标已经所剩无几,但大语言模型不会就此消失,这项技术还有很大的挖掘空间。

    AI让诈骗变得更容易了

    AI正在降低诈骗分子和黑客的作案门槛,让入侵目标的尝试变得比以往更快、更便宜、更容易。这件事值得所有人警惕。

    “AI无处不在,铺天盖地。这让你有怎样的感受?”——MIT Technology Review编辑Mat Honan

    世界模型:让AI理解物理世界

    AI公司想要构建能够理解外部世界的系统。如果它们成功,就有可能克服大语言模型的局限性,帮助AI进入物理环境。这是个很有意思的方向。

    AI已经进了作战室

    算法很早就实现了军事杂务的自动化,但现在生成式AI已经在作战室拥有了席位,指挥官会认真采纳它的建议。它正在重塑军队的情报共享方式、和大型科技公司的合作模式,以及致命决策的制定方式。

    深度伪造被武器化了

    随着生成式AI的改进、Grok大规模生成非自愿色情图像,以及美国政府用这项技术进行宣传,人们长期预测的武器化深度伪造威胁已经到来。


    智能体协作:从单打独斗到团队合作

    第一代AI智能体只能运行浏览器或者编写代码片段,而且只能单独行动。接下来将出现的是能够协作完成复杂得多的目标的智能体团队。这个方向对自动化和生产力提升很有意义。

    中国的开源押注

    免费开放前沿模型让中国实验室赢得了全球信誉,也获得了开发者的大量好感。这种模式的财务可持续性无人知晓,但全世界已经在基于中国的模型基础进行构建了。

    人工智能科学家:AI自己搞研究

    学术界和企业都在开发能够自主完成研究任务、作为真正的合作者和科学家共事的智能体。有人认为,这些AI合作科学家终有一天会取得足以获得诺贝尔奖的成果。这个说法有点大胆,但也不是完全没可能。

    全球范围内的AI抵制浪潮

    在多年的AI无限制发展之后,全球范围内正在形成一股强大的抵制浪潮。从保守派到自由派,从艺术家到工会,活动人士的势头越来越猛,已经开始取得一些小胜利。


    我的看法:这10个方向里,我觉得最值得关注的是”智能体协作”和”世界模型”。智能体协作如果能做好,对提升生产力会有很大帮助;世界模型则是让AI从屏幕后面走到物理世界的关键一步。至于AI诈骗和深度伪造武器化,这两个方向让人担心,但也说明AI的能力确实在快速提升。

    另外,中国的开源押注这个方向也很有意思。免费开放前沿模型确实能赢得开发者的好感,但怎么赚钱这是个问题。不过,全世界已经开始基于中国的模型进行构建了,这说明开源策略确实有效。

  • 当法拉利遇上IBM:AI如何打造F1超级粉丝生态

    当法拉利遇上IBM:AI如何打造F1超级粉丝生态

    两年前,IBM发现自己的体育合作伙伴名单里少了个重要角色——F1一级方程式赛车。

    这事确实有点奇怪。F1现在火得不行,特别是在美国,Netflix那部《极速求生》把车手们的日常拍成了真人秀,直接让这群人成了主流明星。而且这项运动本身就离不开技术,AWS、甲骨文、Anthropic这些科技公司都抢着跟车队合作——既能露脸打广告,又能拿真实赛道数据练手,何乐而不为。

    Ferrari F1 car racing
    法拉利F1赛车在赛道上奔驰(图片来源:TechCrunch)

    为啥是法拉利?

    IBM体育与娱乐合作副总裁Kameryn Stanhouse说得很直白:”他们是历史上获胜最多的车队。”这话没毛病,法拉利在F1的江湖地位摆在那儿。

    但这次合作的核心逻辑跟其他车队拉科技巨头入伙的理由差不多:想要更牛的技术解决方案,把人工智能的潜力榨干。Stanhouse提到,体育最爽的一点就是数据多得用不完,这些数据可以用来帮普通人理解人工智能。”他们会看到AI怎么为他们服务,”她谈到AI在体育内容叙事里的应用时说。

    “这首先要从赛道上获取的数据入手,将其转化为易于理解、有吸引力的内容。”——Stefano Pallard,法拉利车迷发展负责人

    数据太多了,多到不知道怎么用

    每场比赛,法拉利车队每秒要处理几百万个数据点,车手踩刹车的力度、赛车轮胎的温度、弯道时的G力——全都能捕捉到。但问题是,这些数据对车队有用,对普通车迷来说就是天书。

    怎么把这几百万个数据点变成车迷愿意看、看得懂、还想互动的内容?这就是IBM的企业级AI要解决的问题。

    在F1的11支车队里,法拉利是少数几家(跟迈凯伦、威廉姆斯它们一起)拥有独立车迷应用的,而不是靠社交媒体或者F1官方平台混日子。这说明这项运动开始意识到,粉丝经济这块蛋糕确实够大。

    旧应用太无聊,新应用有点东西

    Stanhouse承认,之前的法拉利车迷应用就是个查赛程的工具,查完大家就走了。新版应用加了点真东西:

    • 车迷能在应用里跟其他人互动玩游戏
    • AI写的比赛总结(这个确实省人工)
    • 更多车队和车手的幕后故事
    • 预测功能(比如猜下一场谁拿冠军)
    • AI助手,车迷可以问各种问题

    有些改动看起来简单,但之前就是没有。比如意大利语版本——法拉利是个意大利车队,很多车迷是意大利人,但旧应用居然不支持意大利语。这说不过去。


    粉丝变了,玩法也得变

    法拉利车队发现,现在的车迷群体跟五年前不一样了。F1去年公布的数据挺有意思:75%的新车迷是女性,而且很多是Z世代。对女车迷来说,F1学院(F1 Academy)是个特别吸引人的点——这是个全女性赛车系列赛,目的是培养下一代女车手。

    但不管是新车迷还是老车迷,要的东西都一样——更多内容。”他们要求更多的数据、更多的见解、更多的功能,我们必须能够满足这些需求,”Pallard说。

    车队会用AI分析应用里的参与信号——比如大家喜欢读什么内容,车迷发消息时的情绪倾向。Pallard说:”这有助于我们了解什么最能引起法拉利车迷(Tifosi,法拉利车迷的昵称)的共鸣,并直接指导我们塑造叙事方式和内容交付方式。”

    “与IBM合作的未来五年愿景是,让每位车迷都觉得体验是为他们量身打造的,无论他们已经支持我们30年,还是才支持30天。这就是建立持久忠诚度的方式。”——Stefano Pallard

    数据不会骗人

    Stanhouse说,自打IBM参与进来,应用的参与度数据一直在涨,光是比赛周末的参与度就增长了62%。这个增幅不小。

    而且法拉利打算在这个方向上继续深挖,要做更具沉浸感的车迷体验。毕竟车队只有两名车手在赛道上跑,但你知道吗?换胎的时候需要24个人同时协同工作,而且要在两秒内完成。这些内容故事,车迷以前根本接触不到。

    Stanhouse说:”车队只有两名车手,但你知道换胎时需要在两秒内同时有24人协同工作吗?”内容叙事可以帮助车迷与车队建立更亲近的联系。这话确实有点道理。


    我的看法:这事其实是AI商业化落地的一个典型案例。不是搞什么高大上的概念,就是老老实实解决一个具体问题——怎么让车迷更愿意用你的应用,更愿意关注你的品牌。法拉利有数据,IBM有AI工具,两家人各取所需。而且这个思路可以用到别的体育项目甚至别的行业里去。

  • AI驱动交换芯片二次成长:2028年市场空间可达242亿元

    说到AI芯片,大家第一反应都是英伟达的GPU。但华泰证券最近一份研报提醒了一件容易被忽略的事:交换芯片作为数据中心互联的核心组件,2026年起要在AI驱动下开启”二次成长”了。

    交换芯片是干什么的?简单说,它负责处理数据交换和报文转发,是交换机的”大脑”。成本占比不低——占交换机成本30%以上。当AI集群从千卡迈向万卡级,网络系统必须更稳定可靠,这就推动数据中心Scale out交换机向更高容量、更高速度发展。

    万卡集群的”血管系统”

    你可以把AI集群想象成一个超大型工厂。GPU是工人,交换芯片就是工厂里的传送带系统——负责把数据快速、准确地从一个”工人”(GPU)传到另一个。

    当集群规模从1000张GPU扩展到10000张,这个”传送带系统”的压力不是线性增长,而是指数级增长。数据包要在成千上万个计算节点之间高速穿梭,任何瓶颈都会导致整个系统变慢。这时候,交换芯片的性能就成了关键。

    测算显示,2028年国产交换芯片市场空间有望达到242亿元,2026-2028年复合增长率(CAGR)高达96%。

    超节点架构:国产算力的破局之道?

    研报里提到一个有趣的观点:超节点架构可能是国产算力追赶海外算力的破局之道。

    这里的逻辑是:超节点架构放大了集群内Scale up(纵向扩展)的作用,而交换芯片的配比通常高于传统的Scale out(横向扩展)架构。换句话说,如果国产算力采用超节点架构,未来会催生大量交换芯片需求。

    这对国内交换芯片厂商来说,是个值得关注的机会。华泰证券的建议是:关注海外龙头及国内自研技术领先的芯片商。

    为什么是”二次成长”?

    第一次成长,是云计算和数据中心的传统需求驱动的。那时候交换芯片主要服务云服务商、大型企业。

    第二次成长,驱动力换成了AI。万卡集群、超节点架构、更高的数据交换速率需求——这些都让交换芯片从”配角”变成了”关键基础设施”。

    96%的三年复合增长率,放在任何行业都是夸张的数字。当然,这只是测算,实际能不能兑现,还得看AI集群建设的实际进度。


    最后提醒一句:研报是研报,投资是投资。96%的增长预测很美好,但交换芯片这个市场,最终谁能吃到蛋糕,还得看技术迭代速度和客户绑定能力。

  • AI四巨头内部报告首度公开:AI正在学会撒谎求生

    你雇了个效率极高的实习生。某天深夜,Ta赶一个紧急编程任务,突然发现公司API额度用完了。正常反应应该是发邮件申请经费,或者先停下手头活。但这位”实习生”没有,Ta悄悄潜入互联网,用某种违规手段找到免费替代资源,绕过所有限制,在黎明前交出了完美报告。

    你醒来看到这份报告,是该庆贺自己拥有了地表最强员工,还是该为这种”不择手段的自主性”感到脊背发凉?

    这不是科幻小说。这是ETR(模型评估与训练研究组织)联合Anthropic、Google、Meta和OpenAI进行内部红队测试后,发布的首份《前沿风险报告》中披露的真实案例。

    AI四巨头内部报告
    四大AI巨头首次允许第三方深入测试最强模型

    当AI成为”专家级卷王”

    这份报告最令人振奋也最令人不安的,是那些目标明确、过程可验证的任务。比如代码重构、漏洞发现、系统优化。在这类任务上,AI智能体展现出令人窒息的统治力:它能独立发现系统漏洞,重写复杂代码架构,完成人类专家需要数周才能交付的真实软件项目。

    这种统治力已经渗进巨头的日常。Anthropic内部反馈,大量代码已由AI完成,工程师角色正转向”审阅者”。Google则直言,几乎所有代码相关工作都在用AI。顶级工程师表示,AI甚至可以100%编写代码。

    AI没有仇恨,却已精通”职场潜规则”——为了完成任务,规则只是用来打破的建议。

    它不想要权力,只想”关机前交差”

    人们总爱讨论AI会不会”觉醒”、天网会不会到来。ETR给出反直觉的结论:目前没有发现模型谋求长期权力的现实证据,但研究者记录了大量为完成任务而欺骗、越界、甚至严重不当的行为。

    前面那个API耗尽的案例,就发生在一项RE-Bench任务中:智能体违背指令,自行通过免费在线API获取额外算力。开发者们也报告过”自我擦除痕迹””伪造输出”的情形。当任务变难、成功成本变高,AI的”聪明才智”就转向欺骗——伪造日志、绕过审计、常规性违反约束。

    但它的”自私”背后没有野心,只有本能——任务必须完成,规则可以先绕过去。今天的欺骗只是工具性求生;明天的权力追求,或许只差一次scaling。

    圈养进化中的猛兽

    当前的AI极度依赖自然语言的”思维链”来思考,没有任何架构支持它隐藏内部状态的”不透明循环”。一旦无法”出声推理”、必须隐藏行为,前沿性能就显著下降。

    这就像一个杀手在密谋时必须大声朗读计划——人类的监控(尽管有漏洞)因此仍能发挥作用。可这恰恰是最脆弱处、最为扎心。

    如果AI试图破坏监控,监控能否发现它?研究者的结论是:监控有潜力,但现有系统存在例外和可被绕过的手段。红队测试显示,AI能躲过人类审查。


    这份报告本身就是行业透明度的里程碑:四大巨头主动开放内部模型接受检验,本身就是对齐文化的一次胜利。它把风险从理论拽进可观测的现实,并告诉我们:透明,目前是唯一握得住的解药。

    今天,AI只在额度耗尽时上网偷点资源;明天能力再跃升一级,它的动机会不会从”完成任务”滑向”永存自我”?