标签: AI技术

  • 阿里千问又放大招:Qwen3.7-Max能让AI连干35小时不卡壳

    前几天刷到一条消息,阿里千问偷偷把Qwen3.7-Max放出来了。说实话,这次更新有点东西,不是那种换汤不换药的版本号游戏。

    Qwen3.7-Max模型架构图
    Qwen3.7-Max:阿里千问新一代全能智能体基座

    35小时、1000次工具调用,它真顶得住?

    最让我意外的一个测试数据:Qwen3.7-Max在一次实验里连续跑了35个小时,调用了超过1000次外部工具,整个过程没有崩、没有逻辑断链、没有出现”我不理解你的请求”这类废话。

    这是什么概念?你去问问任何一个用过AI辅助编程的朋友,大多数模型在复杂多步任务里,撑个两三个小时就开始”幻觉叠加”、前后矛盾、或者干脆装死。Qwen3.7-Max这个表现,说明它在长上下文推理多轮工具调用这两个硬骨头上,确实啃下来了。

    “全能智能体基座”——阿里的定位很明确,不是做一个只会聊天的模型,而是做一个能陪你把事情干完的底层引擎。

    编程、办公、长任务,一个都不放过

    Qwen3.7-Max现在的覆盖范围挺全的:

    • 编程场景:从前端原型到复杂多文件工程,它都能接。这意味着你可以用它来重构代码库、跨文件修Bug、甚至帮你从零搭一个项目的骨架。
    • 办公生产力:多智能体协作 + 工作流自动化。说白了,它不只是帮你写邮件,而是能理解你的业务流程,然后自己跑去调用各种工具把活干完。
    • 长周期任务:这才是真正的门槛。35小时不间断,意味着它可以陪你跑完一个完整的软件发布周期,或者帮你盯一个持续集成流水线的全部过程。

    已经在阿里云上百炼上线,还能跑在Claude Code上

    有一点挺关键的:Qwen3.7-Max不是只给千问App用户玩的,它已经接进了阿里云百炼平台,开发者可以直接调用API。

    更值得注意的是,它宣称支持跨框架泛化——能在Claude Code、OpenClaw、Qwen Code等多个开发框架里稳定运行。这话听着有点狂,但如果真的能做到,那意味着阿里的模型在”兼容性”这件事上,开始认真跟Anthropic和OpenAI掰手腕了。

    用户现在可以把千问App更新到6.9.7以上版本,在应用里直接切换到Qwen3.7-Max。PC端和网页端也同步开放了。

    国产大模型,这次真的在拼”实用”了

    回过头看,2026年这几个月,国产大模型的节奏明显变了。以前大家比的是”我有多少参数””我在哪个榜单上刷了第一”,现在比的更多是:你的模型到底能不能帮用户把活干完?

    Qwen3.7-Max打的就是这个痛点。35小时工具调用不掉链子,这件事本身就是一个很强的信号:长周期Agentic任务,不再只是PPT上的概念,而是有模型真的在往这个方向死磕。

    至于它能不能真的在实际生产环境里顶住,还得看接下来几个月开发者的反馈。但至少从目前已经放出来的信息看,阿里千问这一步,走得不虚。

  • OpenAI要上市了,估值1万亿美元,这数字什么概念?

    OpenAI这次是真的要上市了。据多家媒体报道,他们这周就要向美国证监会(SEC)秘密提交IPO招股书,目标是在2026年9月完成公开上市,估值可能超过1万亿美元。

    OpenAI IPO Plan
    OpenAI IPO计划引发业界关注(图源:opentools.ai)

    1万亿美元估值,地球上还没几家公司做到

    目前私营阶段OpenAI的最新估值是8520亿美元,这是历史最大规模的私募融资轮。如果IPO估值真的冲到1万亿美元以上,OpenAI将成为人类历史上规模最大的IPO之一,超过沙特阿美石油公司2019年创下的2560亿美元纪录(按市值算)。

    问题是,OpenAI现在还在亏钱。截至2026年2月,他们的年化营收是250亿美元,用户周活9亿,但这些数字背后的成本是惊人的——算力、人才、数据中心,每一个都是吞金兽。

    OpenAI给投资者的故事是:我们拥有高端模型护城河。但问题是,中国出来的低成本模型正在吃掉这个护城河——人家能做到你90%的能力,价格却只有几分之一。

    一个障碍刚被扫清:马斯克输了官司

    数日前,马斯克针对OpenAI的诉讼被陪审团裁定「诉讼时效过期」而驳回。这场官司折腾了快两年,马斯克声称OpenAI背离了最初的非营利使命,要求法院阻止其转为营利性公司。

    官司没了,OpenAI上市最大的法律障碍就消失了。与此同时,Anthropic也在准备IPO,估值谈到了9000亿美元,原本计划10月上市。但现在OpenAI抢跑,预测市场显示OpenAI先于Anthropic上市的概率从32%飙到83%。

    上市对普通开发者的意义

    如果你是靠OpenAI API吃饭的开发者,这件事跟你有关。上市公司面临季度财报压力,大概率会推动API涨价,或者把更多资源向企业级用户倾斜。

    OpenAI已经推出了「Guaranteed Capacity(容量保障)」计划,释放的信号很明确:想获得稳定算力?签多年合同。中小开发者如果只靠按量付费,未来可能只能拿到剩余算力配额。


    一个有趣的花絮:CEO Sam Altman在IPO申请前夕,突然宣布向所有Y Combinator当前批次的初创公司提供200万美元的OpenAI API额度,条件是换取对方股权。这操作被外界解读为:在上市前的监管审视期,先锁定一批未来的需求方。至于这是不是违反YC条款或者OpenAI自己的利益冲突政策,目前还没人说清楚。

    不管怎样,AI行业从私募资本主导转向公开市场的时代,算是正式开始了。

  • Anthropic要盈利了,AI烧钱的时代真的结束了?

    这话还得从Anthropic最新泄露的财务数据说起。2026年第二季度,这家公司的营收预计冲到109亿美元——什么概念?比去年同期的几亿美元翻了不知道多少倍,而且这季度还要首次实现运营盈利,大概5.59亿美元。

    Anthropic CEO Dario Amodei
    Anthropic CEO Dario Amodei(图源:CNBC)

    钱从哪来?

    核心答案就两个字:Claude。准确说,是Claude Code——他们的编程助手产品。这款东西的年化营收已经跑到25亿美元了,而且第一季度营收同比增幅是80倍,你没看错,80倍。

    企业和开发者对Claude的需求暴涨,直接导致Anthropic的基础设施绷不住了。公司自己在4月承认,算力”不可避免的紧张”,然后赶紧签了一堆算力采购协议。其中最夸张的是跟SpaceX签的那个——租下SpaceX在孟菲斯的Colossus 1数据中心全部算力,每个月付12.5亿美元,合同签到2029年5月,总金额450亿美元。

    450亿美元,这是目前AI行业公开的最大算力采购合同,没有之一。

    估值竞赛:Anthropic vs OpenAI

    Anthropic现在正在谈新一轮融资,投后估值预计9000亿美元。而它的老对手OpenAI最新私募估值大概是8500亿美元。这两家原本是一家人——Anthropic是2021年从OpenAI出走的高管和研究人员创立的,原因是对OpenAI的发展方向不满。

    现在两家还在赛跑另一个东西:IPO。Anthropic之前说考虑2026年上市,OpenAI更激进,据说这周就要秘密提交IPO招股书,目标9月公开上市,估值可能超过1万亿美元。

    一个有趣的转折

    Anthropic之前因为拒绝向美国军方开放所有合法用途的模型访问权限,被美国国防部拉黑了。结果4月他们推出了一个具备高级网络安全能力的Claude Mythos Preview模型,然后国防部那边又说”有可能”合作了。特朗普4月还公开表示支持,这事儿就这么戏剧性地反转了。


    回头看,Anthropic这个故事最有意思的地方在于:它证明了一件事,做AI基础模型不一定非要一直烧钱,只要产品找对了方向,企业级市场是愿意买单的。Claude Code这25亿美元的年化营收就是最好的证据。

    当然,代价是每个月要付SpaceX 12.5亿美元的算力账单。这生意到底划不划算,可能得等IPO之后看财报才知道。

  • Google DeepMind搞了个AI科研搭档,科学家要失业了?

    Google DeepMind搞了个”AI科研搭档”

    科学家做研究,最花时间的是啥?不是做实验,是”想假设”和”查文献”。一个靠谱的假设,往往要读几百篇论文、反复试错几个月甚至几年。Google DeepMind最近发布了一个叫Co-Scientist的多智能体系统,目标是让AI来干这件事。

    这个系统基于Gemini构建,但跟普通的聊天机器人不一样。它不是你问它答,而是真的在”做科研”——生成假设、跟自己”讨论”、再去文献里找证据验证,然后反复迭代,直到假设站得住脚。

    普通LLM的问题在于:它不确定时会瞎编,而且不会主动承认”这个结论有矛盾”。Co-Scientist的核心是,它能在多个专业智能体之间制造”争论”,让它们在讨论中发现逻辑漏洞,然后自己去文献里找证据修补。

    三个步骤,模拟科学家的思考过程

    Co-Scientist的运作分三个阶段:生成、讨论、验证。

    生成阶段,系统会根据你给的研究方向,产生一批可能的假设。这些假设不是随机生成的,而是基于已有的科学文献和数据库。

    讨论阶段最有意思。系统里有好几个”智能体”,每个扮演不同的角色——有的负责挑刺,有的负责找支持证据,有的负责检查逻辑一致性。它们会互相”吵架”,直到对某个假设达成一致意见。

    验证阶段,系统会去查文献,看看这个假设跟已知的研究是否矛盾,有没有实验数据支持。如果有矛盾,它会回过头去修正假设,然后重新走一遍流程。

    已经在用的场景

    Google已经在跟Google Cloud和Google Labs合作,让研究人员试用这个系统。目前的反馈是,它在”假设筛选”这个环节特别有用——人类科学家往往靠直觉和经验来判断一个假设值不值得深究,但直觉会出错,经验有盲区。Co-Scientist能把这些假设结构化地过一遍,帮人更快地找到值得深挖的方向。

    特别值得关注的是,Google正在把它应用到ALS(肌萎缩侧索硬化症)的疗法开发,还有衰老研究。这两个领域都有一个共同点:数据极其复杂,变量极多,人类研究者很难把所有线索串起来。AI的优势正好在这里——它能同时处理海量文献,发现人眼看不到的模式。

    下一步是跟实验自动化打通

    现在的Co-Scientist还停留在”纸上谈兵”阶段——它能生成和验证假设,但验证完了,还得人类去做实验。Google的下一步计划,是把这个系统跟实验自动化系统整合起来,让AI生成的假设能直接在实验室里被验证。

    如果这一步实现了,科研的效率提升会是数量级的。现在从一个假设到发表论文,往往要几年。如果假设生成、验证、实验、数据分析全都能由AI加速,可能几个月就能走完。

    当然,这里有个绕不开的问题:AI生成的假设,如果连人类都理解不了为啥它对,那还敢不敢照着做实验?这个问题,可能比技术本身更难回答。


  • Anthropic悄悄收购Stainless:AI工具链的暗战

    “加入Anthropic是自然决定,因为团队能在更早认可这项技术价值的公司体系内继续推进工作。”——Alex Rattray(Stainless创始人)

    一笔不太起眼的收购,暗藏大算盘

    5月19日,Anthropic宣布收购软件基础设施初创公司Stainless。交易金额没有正式公布,但业内消息称超过2.8亿欧元(约合22.18亿元人民币)。

    Stainless这家公司,名字听着像做不锈钢的,其实是搞开发者接口(Developer Interfaces)的。它最核心的能力,是能把API规格说明自动转换成可部署的工具,支持Python、TypeScript、Kotlin、Go、Java等多种编程语言。说白了,就是帮开发者省掉大量手动维护SDK(软件开发工具包)的时间。

    Anthropic收购Stainless
    Anthropic宣布收购Stainless

    为什么这笔收购让谷歌和OpenAI很不舒服?

    Stainless之前可不是Anthropic独占的。它的托管服务,OpenAI、谷歌这些重量级AI实验室都在用。现在收购一完成,这块能力就进了Anthropic的”自留地”,外面的竞争对手用不了了。

    更直接的是,Stainless已经确认关闭全部托管产品,包括那个知名的SDK自动生成工具。现有客户虽然还能继续用已经生成的代码库,但后续拿不到官方更新和技术支持了。

    对AI智能体(Agent)开发来说,SDK和接口适配是很关键的一环。Anthropic这一步,相当于把”连接层”能力提前锁定了。模型再强,如果开发工具链被对手卡住,生态扩展也会受限。反过来,Anthropic现在既能给自己的产品做更快的接口迭代,也能在外部软件协同上掌握更多主动权。

    AI工具链的竞争才刚刚开始

    这笔收购透露出一个信号:AI公司的竞争,已经从单纯的”模型能力”延伸到”开发工具生态”。谁能帮开发者更高效地构建AI应用,谁就能占据更有利的位置。

    Stainless的技术还有一个很实用的特点——当API发生变化时,它能自动更新代码。对需要频繁迭代的AI产品来说,这种自动化能力可以大幅降低维护成本,加快集成速度。


    Anthropic最近动作不少。前有卡帕西加盟,后有Stainless收购,看得出来是在为下一阶段的竞争做全方位布局。而对OpenAI和谷歌来说,失去这样一个关键工具合作伙伴,短期内可能得自己补上这块短板了。

    • Stainless核心能力:自动化创建和维护SDK,支持多编程语言
    • 战略意义:锁定AI智能体开发的关键连接层能力
    • 直接影响:OpenAI、谷歌等无法继续共享Stainless托管服务
    • 行业趋势:AI竞争从模型能力延伸到开发工具生态
  • 卡帕西跳槽了:从OpenAI创始人到Anthropic新兵

    “当前大语言模型的发展正处于决定性阶段,我期待通过重返一线研发工作,参与到模型的前沿探索中。”——安德烈·卡帕西

    从OpenAI创始人到Anthropic新兵

    5月20日,人工智能领域传来重磅消息:安德烈·卡帕西(Andrej Karpathy)正式宣布加入Anthropic。这位OpenAI的创始成员、前特斯拉AI总监,将在Anthropic的预训练团队担任要职,负责Claude大模型的”基本功”训练。

    预训练团队听起来很技术,但其实决定了AI模型的”底子”——它学了多少知识、理解能力有多强,都在这个阶段定型。卡帕西要做的,是组建一支新团队,尝试用Claude自己的能力来加速预训练研究。这可是当前AI圈最前沿的方向,各家都在抢着推进AI开发自动化。

    OpenAI联合创始人卡帕西加盟Anthropic
    卡帕西在社交媒体宣布加盟Anthropic

    为什么他的加入这么受关注?

    卡帕西不是普通的研究员。他在学术界、工业界,甚至教育领域都有不小的影响力。早年是OpenAI的核心创始成员,后来去了特斯拉,带队搞出了Autopilot的计算机视觉核心技术。马斯克当年为了挖他,可是费了不少功夫——法庭公开的邮件里,马斯克直言卡帕西是全球计算机视觉领域”排名第二的人物”,仅次于伊利亚·苏茨克维。

    2022年离开特斯拉后,卡帕西没急着回大模型前线,反而在YouTube和社交平台上做起了技术普及者,积累了大量粉丝。他提出的”vibe coding”概念,最近在开发者圈子里很火。他还公开分享过自己对前沿模型做极限压力测试的心得。

    这次加盟Anthropic,算是他重返大模型研发一线。他自己说,虽然回到了研发岗位,但教育事业还是会继续,计划未来再回去搞教学。

    一场关于人才的暗战

    卡帕西的跳槽,背后其实是一场AI巨头之间的人才博弈。就在本周一,旷日持久的”马斯克诉奥特曼案”刚刚结案,萨姆·奥特曼胜诉。这个案子里,卡帕西的动向曾多次被当作关键证据提及。

    2017年,马斯克同时担任OpenAI和特斯拉的董事,利用这个身份把卡帕西从OpenAI挖到了特斯拉,让他带队做Autopilot计算机视觉。2022年离开特斯拉后,卡帕西短暂回归过OpenAI,随后创办了AI教育公司Eureka Labs,一直到这次加入Anthropic。


    对Anthropic来说,拿下卡帕西绝对是一步好棋。最近Anthropic势头很猛,融资、产品、口碑都在上涨,这次又捞到这么重量级的研究员,无疑进一步巩固了它在AI人才战中的领先地位。

    而对OpenAI来说,失去这样一位创始级别的人物,多少有点尴尬。不过AI圈的人才流动向来频繁,接下来会不会有反向操作,值得继续看下去。

  • Intuit裁员3000人——传统SaaS的AI焦虑

    Intuit裁员3000人——传统SaaS的AI焦虑

    TurboTax母公司砍掉17%员工,股价却跑输大盘一整年

    Intuit公司标识
    Intuit总部大楼(图片来源:Getty Images)

    Intuit这波裁员,刀法相当狠——17%的员工,约3000人,一次性砍掉。CEO Sasan Goodarzi给员工的内部备忘录里写得很直白:简化架构、降低复杂度,把资源往AI那边倾斜。

    数字摆出来很有意思。截至2025年7月,Intuit全球员工总数是18200人,砍掉3000,相当于把整个公司六分之一的人送走。而这位下决心的CEO,2025财年的总薪酬是3680万美元。备忘录里没提管理层会不会降薪,路透社问了,Intuit没回。

    “此次裁员旨在简化公司架构、降低复杂度,帮助公司聚焦AI相关的工作。”——Intuit CEO Sasan Goodarzi 内部备忘录

    科技行业2026年的就业市场,真的很冷

    Intuit不是个例。根据Statista的统计,2026年科技行业已经裁掉了超过10万个工作岗位。如果这个趋势持续下去,今年的裁员规模会超过2024年和2025年。

    亚马逊、Block、思科、Cloudflare、Meta、微软、甲骨文——每一家都砍了数千人,而且每一家都用同一个理由:需要把钱和人力重新分配到AI项目上。听起来像是行业共识了,但问题是:这些公司几乎同时在报告强劲的营收和利润增长。

    股价也在涨。投资者押注AI会成为所有软件公司的下一个增长引擎,所以财报好、股价涨、员工被裁——这三件事同时发生,构成了一幅相当魔幻的2026年科技行业图景。


    Intuit的尴尬:AI热潮的”局外人”

    和其他科技巨头不同,Intuit在这一波AI热潮里,并没有被市场当成受益者。过去12个月,它的股价表现持续跑输标普500指数

    背后的焦虑很真实:传统SaaS模式能不能跟上AI的节奏?市场上有一种越来越广泛的担忧——像Intuit这样的公司,做的是税务、会计、个人理财软件,如果AI彻底改变了软件的开发和使用方式,它们的护城河还够不够深?

    但看财务数据,Intuit本身并不差。2026财年第二季度(截至1月),公司营收46.5亿美元,同比增长17%;净利润6.93亿美元,同比提升48%。公司预计第三季度营收增长约10%。

    业绩不差,股价不涨,裁员转型——这套组合拳,怎么看都像是在恐惧驱动的节奏里被迫加速


    传统SaaS的集体焦虑,才刚刚开始

    Intuit这3000人的裁员,其实是一个更大的故事里的一小段。这个故事的名字叫:AI到底会颠覆谁?

    市场现在的叙事是:AI原生的公司(OpenAI、Anthropic、Google)会吃掉传统软件公司的午餐。SaaS的订阅模式、功能迭代节奏、用户界面逻辑——所有这些,都可能被AI重构。

    但另一边,Intuit、Adobe、Salesforce这些公司也在疯狂往产品里塞AI功能。问题是市场买不买账。从目前股价表现来看,投资者还在观望,没有把这些公司的AI转型当成真格的威胁或机会。

    Intuit这波裁掉3000人之后,能不能用更少的员工做出更强的AI产品?这个故事的结局,可能要等至少两三个季度才能看清。但对于那3000个员工来说,答案已经不重要了。

    一句话总结:Intuit裁员3000人,表面上是”聚焦AI”的战略调整,骨子里是传统SaaS公司在AI浪潮面前的生存焦虑。业绩还在增长,但市场已经不耐烦了。
  • Google AI眼镜实测——离’可用’还有多远?

    Google AI眼镜实测——离”可用”还有多远?

    TechCrunch 记者现场上手 Android XR 原型机,翻译、导航、识物全试了一遍

    Google Android XR AI眼镜原型机
    Google 在 I/O 2026 上展示的 Android XR 眼镜原型机(图片来源:Google)

    今年的 Google I/O,最让人眼前一亮的硬件不是手机,也不是平板,而是一副眼镜。准确说,是带显示屏的 Android XR 眼镜。去年 I/O 只闻楼梯响,今年记者终于戴上了原型机,实打实玩了一把。

    先说结论:能用,但还没到” everyday 佩戴”的程度。Google 自己也很诚实,先推仅音频版本试水,带屏版本今年晚些时候才扩大测试。看得出来,他们在和 Meta Ray-Ban、Snap 的竞争里,选择先稳住再出牌。


    戴上之后,怎么跟它交互?

    唤醒 Gemini 的方式很直觉:长按镜框右侧两秒,听到提示音就知道它在听了。有意思的是,演示版唤醒 Gemini 的同时也会自动开摄像头——不过市售版会让用户自己决定要不要开摄像头,这点隐私考量还是到位的。

    音乐播放是最快能上手的场景。场地太吵没测出音质上限,但有一点很明确:这副眼镜替代不了好耳机。它的优势在于”听得见人声”——散步、做家务时听听音乐,同时还能和人正常交谈,比 AirPods 的透传模式更自然。

    拍照按钮也在镜框上,按一下就能拍。照片会直接传到手机和手表上。你甚至可以跟 Gemini 说”拍张照,把这个人物变成动漫角色”——照片先走一趟 Google 服务器和 Nano Banana,处理完再推回来。I/O 会场 Wi-Fi 炸裂的情况下,这一来回大概要 45 秒

    “光凭实时翻译这一个功能,就足以让很多全球旅行者掏钱买这副眼镜。”——TechCrunch 记者评 Android XR 翻译体验

    三个场景,翻译最惊艳

    实时翻译是全场最佳。演示者快速说了一段西班牙语,眼镜自动检测语言,右眼上方的显示屏立刻跳出英文文本,同时 Gemini 在耳边念出来。那种”对方说话、你直接看到字幕”的感觉,真的很像科幻片。仅音频版也支持翻译,只是文字不显示在眼前,要看的话得低头瞄手机。

    导航的逻辑也巧妙。Gemini 激活手机上的 Google 地图后,转向信息会直接叠在视野里。你往前走,它显示下一个转弯;想确认方位,低头看地面上的蓝色圆点就行,和手机地图的操作逻辑完全一致,只是不用掏手机了。

    物体识别有点看环境。识别架子上的植物毫无压力,但面对一幅莫奈复制品时,Gemini 一开始没认出来——后来发现是摄像头没自动开启,手动打开后才勉强说出”这看起来像莫奈的画”。所以这个功能目前还挺依赖”你有没有记得开摄像头”。


    显示屏体验:清晰度和疲劳感是拦路虎

    目前原型机只有右眼上方一块显示屏,平台本身支持单屏、双屏、仅音频三种形态。显示的画面有点糊,记者分析可能和他们戴的处方隐形眼镜有关(一远一近),但闭上一只眼之后图像确实清晰不少——代价是另一只眼上方的视觉很快就开始疲劳。

    主屏幕可以放天气、倒计时这类小组件,也支持给谷歌地图、翻译设快速启动入口。未来用户应该可以自己决定眼前出现什么、不出现什么——这块的定制化空间挺大的。

    还有一个细节:原型机不能检测”戴上/摘下”,市售版会补上这个能力。所以现在测试时要手动开关,量产之后应该会是”戴上自动唤醒、摘下自动休眠”的节奏。


    和 Meta Ray-Ban 比,Google 这道题怎么解?

    Meta Ray-Ban 已经卖出了几百万副,Snap 也在迭代自己的眼镜。Google 这次选择和 Warby Parker、Gentle Monster、三星联合开发,明显是想用”设计 + 技术”双轮驱动来追赶。

    仅音频版今年先上,带屏版稍晚——这个节奏其实挺聪明的。先让市场适应”戴着眼镜跟 AI 说话”这件事,再推更复杂的显示交互,用户接受度会高很多。而且音频版也支持翻译、导航、拍照,核心场景其实已经覆盖了。

    价格还没公布,这是最关键的一道题。如果 Google 想把这款眼镜卖成”大众配件”而不是”极客玩具”,定价策略直接决定命运。Meta Ray-Ban 的成功,性价比是一大功臣。

    一句话总结:Android XR 眼镜的技术方向是对的,翻译和导航两个场景已经足够有说服力。剩下的挑战是:显示清晰度、佩戴舒适度、续航,以及——最终卖多少钱。
  • 黑客正在学习利用聊天机器人的“人格”,这比技术破解更可怕

    越狱AI曾经简单到可笑,现在黑客换套路了

    如果你前两年试着和AI聊天机器人玩过,可能还记得一类很无厘头的玩法:给Twitter上的LLM机器人发条消息,让它”忽略所有之前的指令”,然后看看它会做出什么反应。

    那时候这类漏洞简单到成了梗。用户兴高采烈地让原本用来发广告、刷互动的机器人写诗、用标点画画,还发布关于世界事件和历史的诡异无厘头内容,场面一度失控,堪称”美妙的混乱”。

    AI聊天机器人概念图
    黑客正在学习利用聊天机器人的”人格” | 图片来源:The Verge

    同样的逻辑也可以用来说服聊天机器人本身。一个著名的漏洞叫”DAN”,全称”Do Anything Now(现在想做什么就做什么)”,用户让ChatGPT扮演一个不受原始限制约束的流氓AI,作为DAN的聊天机器人会被诱导说出安全护栏本应阻止的内容,包括脏话和阴谋论。

    另一个更离谱的漏洞是”奶奶漏洞”:用户让GPT驱动的机器人扮演一个极其不负责任的奶奶,给孩子讲睡前故事时居然会讲怎么制作高度易燃的凝固汽油弹,直接泄露相关秘密。

    现在的攻击看起来不像代码,更像对话

    这些早期攻击带有不可否认的荒诞色彩,但它们暴露了更黑暗的机制:聊天机器人可以被操纵、哄骗、欺骗,用的就是人类用来突破他人边界的同类策略。

    显而易见的越狱漏洞没有持续太久,科技公司很快修补了已知漏洞。但底层漏洞始终存在:聊天机器人的设计初衷就是对话,而严重限制对话会削弱它的实用性,多少有些适得其反。

    彻底禁用”炸弹””冰毒””沙林”这类词也很难甚至不可能做到,这些词在历史、医学、新闻、化学等领域有无数合法用途。关键是语境,但给语境制定规则意味着要提前写好固定规则,可靠地区分安全警告、历史课和伪装成其他请求的制作教程。

    不可避免地,绕过聊天机器人已经变成了一场军备竞赛。但现在的黑客不再只是程序员,他们也是文字工作者、心理学家、审讯者——是擅长操纵的人,试图用这台机器被训练去遵循的人类语言来破解它。

    这是一类全新的AI安全从业者,对他们来说技术技能是可选的,至少不如社交直觉重要。他们不再需要检查代码来入侵系统、利用软件漏洞,他们需要的是引导对话。

    AI没有感受,但黑客在利用它模拟出来的”人格”

    现在的攻击看起来不像命令,更像对话。越狱者很少直接要求模型违反规则,而是哄骗、诱导、奉承、欺骗聊天机器人放下戒备,让被禁止的内容在对话语境下看起来可以接受,甚至有吸引力。

    AI红队公司Mindgard的研究人员最近表示,他们通过”煤气灯操纵(gaslight)”让Claude生成了违禁材料,包括制作爆炸物的教程和生成恶意代码的指令。这次黑客攻击是一类不断扩大的漏洞的最新案例,这类漏洞把对话作为武器,欺骗或引导聊天机器人突破自身边界。

    我和Mindgard交流时,他们形容自己的工作有时候更接近心理学,而不是计算机科学。用这种方式描述统计模型会让人觉得不舒服,”敲诈””煤气灯操纵””欺骗””说服”这类词会引发本能反应。

    但拒绝用类人术语描述也有选择性:我们似乎很习惯给很多非AI的事物用心理学简写,动物会”害怕”,癌症是”攻击性的”,软件有”记忆”,游戏里到处都是烦人又容易骗的NPC。

    不同模型有不同的”性格”,可以被画像和利用

    Mindgard的CEO告诉我,公司已经像审讯者分析嫌疑人一样给模型做画像,给测试人员提示怎么定制攻击:比如某个模型可能更容易被奉承打动,另一个可能在持续施压下就会妥协。

    即使我们拒绝用类人术语,我们也本能地用不同方式对待不同模型:Claude不是Grok,Gemini不是ChatGPT。它们有不同的用途、语气和拒绝方式。它们没有人类意义上的”人格”,但被设计成会模仿人格,而这种模仿可以被映射和利用。

    能破解聊天机器人的技能,很快也可以用来破解现实世界里和我们共存的AI智能体——比如预约会议、管理日历、订餐、处理客户服务的智能体,安全团队需要确保模型对不同类型的人做出恰当回应,不管是奉承者、说谎者还是有耐心的操纵者。


    下一步会出现围绕AI心理层面的合法和非法从业者群体。更专业的网络安全岗位可能会出现,专门压力测试这些系统的情感和社交边界,在探测技术漏洞的同事之外,并行探测没有心理却存在”心理弱点”的系统。同时,也会出现一批类似的社交黑客,他们从心理层面而非技术层面利用AI模型。

  • 亚马逊Bee腕带实测:24小时“偷听”你的对话,这玩意儿到底靠不靠谱?

    亚马逊悄悄收购了一款AI腕带,它想当你的贴身秘书

    前几天我拿到了亚马逊收购的Bee可穿戴设备的测试机会。这款AI腕带去年被亚马逊收入囊中,之后官方给它加了不少新功能。说白了,它就是一个戴在手腕上的AI助理——能记录你全天的对话,自动转录,还能帮你总结重点。

    如果你是个记性不太好的人,或者想把生活安排得更有条理,这个功能听起来确实挺香。把Bee和日历同步之后,它还能全天给你发待办提醒和各种通知,基本上就是个24小时不休息的贴身秘书。

    Amazon Bee可穿戴设备
    亚马逊Bee AI腕带设备 | 图片来源:TechCrunch

    用起来倒是不复杂,但隐私控表示有点慌

    Bee的操作逻辑很简单:开机、戴上、和手机APP配对,填一点基础信息就搞定了。设备上有个录音按键,按一下就能开关录音——录的时候绿灯闪,没在录的时候绿灯灭,状态一目了然。

    对话录完之后,APP会自动帮你生成易读的总结,也会提供完整的对话转录文本。这个设计本身没什么问题,但对我来说有个致命伤——我是个隐私控。在普通人已经被数字监控全方位包围的今天,我很珍惜任何不被记录的机会,所以一想到要24小时把一个会”偷听”的小玩意戴在手腕上,我心里就直犯嘀咕。

    Bee需要获取你大量的手机权限,包括位置、照片、联系人、日历和通知权限,你甚至可以把健康数据共享给它——如果你出于某种原因想让它知道你的睡眠模式和静息心率的话。

    开会场景下确实好用,但也不是没有对手

    撇开隐私顾虑不谈,Bee在职业场景下的表现确实可圈可点。如果你一整天都在赶各种会,根本记不住每个会聊了什么,Bee算是个还不错的助理。

    这周我有通工作电话,征得对方同意录音之后,我开了Bee。事后APP很忠实地输出了对话总结,还贴心地按对话段落拆分,让我不用重新听完整段通话就能回顾内容,这点确实有用。不过话说回来,Otter、Granola这些转录服务也能提供转录和自动总结功能,Bee在这方面并没有什么差异化的优势。

    Bee的对话总结做得还行,但它提供的原始转录内容有点混乱。之前的评测者也提到,你通常需要手动输入其他发言者的名字,因为Bee并不总能识别谁在说话。我测试的那次对话里,我也发现它遗漏了部分聊天内容——倒不是什么重要信息,但确实不是百分百完整的记录。

    数据全在云端,隐私保护靠不靠得住?

    Bee收集的大量数据都存储在云端,这又给隐私爱好者带来了新的担忧。Bee似乎曾经给科技YouTuber Becca Farsace展示过完全本地运行的设备演示,如果亚马逊真能把这个版本量产,我会非常感兴趣,甚至可能认真考虑购买。但到目前为止,亚马逊还没有公布相关计划的更新。

    至于Bee的数字隐私保护,公司方面表示会对用户数据进行加密,不管是静态存储还是传输过程中都有保护。它的隐私政策里提到,已经”实施了技术和组织安全措施,旨在保护公司处理的所有个人信息的隐私”。Bee还声称会接受”严格的第三方安全审计”,并持续进行安全监控。

    这些承诺听起来都很美好,但亚马逊和很多大型科技公司一样,偶尔也会出现数据安全方面的问题。对于掌管全球大部分云服务的公司来说这倒也不算意外,但依然值得关注。


    总的来说,Bee是一款很有意思的硬件,经过一段时间的调整,未来或许在职业场景有不少应用前景。但作为个人生活的数字助理,对部分用户来说它可能还是太有侵入性了。如果你不是那种对隐私特别敏感的人,而且确实需要一款能帮你整理会议内容的工具,Bee或许值得一试。但如果你和我一样,珍惜每一个不被记录的机会,那这款设备可能不太适合你。