标签: AI监管

  • 特朗普签了份AI行政令:模型发布前可自愿接受政府审查

    美国总统特朗普本周二签了一份行政令,要求AI公司在模型正式发布前,可以自愿把模型提交给联邦政府审查。说自愿,是因为企业可以自己决定交不交,但一旦交了,政府会评估模型的高级网络能力,企业这边也能拿到相应的保密保护。

    之前说不监管,现在为什么改主意了

    特朗普对AI监管的态度转变挺有意思。他之前一直主张不让监管扼杀创新,甚至一度推迟签署AI相关行政令,理由是怕影响美国跟中国的AI竞争。结果这次的行政令写得挺明确:AI的新能力确实伴随安全风险,政府不能装看不见。

    触发这次转向的直接原因,很可能是Anthropic在今年4月有限度发布的Mythos模型。Anthropic自己说,这个模型发现了数千个高危漏洞,主流操作系统和网页浏览器全都中招。这话一出,华盛顿那边坐不住了。

    Anthropic的Mythos模型在测试中发现:所有主流操作系统和网页浏览器都存在高危漏洞——这话是Anthropic自己说的,不是政府说的。

    更有意思的是,Anthropic之前跟五角大楼因为AI用于自主致命武器和大规模监控的问题闹过法律纠纷。这次Mythos一发布,双方关系反而出现了缓和迹象。有时候,一个技术演示比十轮谈判都管用。

    行政令到底说了什么

    • 企业可以自愿提交模型,提交后最多30天内完成审查
    • 审查聚焦模型的高级网络能力,不是全面安全审计
    • 提交企业获得保密保护,政府不会随意公开模型细节
    • 联邦政府同步强化针对AI攻击的网络防御,重点保护关键基础设施
    • 行政令明确:这不是强制许可,也不是发布前审批

    这份行政令其实有个前传。去年5月,谷歌、微软、xAI就同意让美国商务部下属的AI标准与创新中心(CAISI)在模型发布前做审查。OpenAI和Anthropic更早,2024年拜登还在任的时候就签了类似协议。所以特朗普这次,某种程度上是把拜登时期的实际做法给正式化了,只是换了个”自愿”的名义。

    行业买账吗

    出乎意料的是,这份行政令居然获得了AI安全倡导团体的认可。美国负责任创新组织的主席布拉德·卡森发表声明说,”白宫正式接受了Mythos传递的信号”。安全AI联盟的CEO也表示,很高兴看到特朗普政府认真对待模型风险。

    但这帮人并不满足于自愿框架。他们还在敦促国会立法,把这些保护措施变成强制要求。自愿这个东西,换了届政府就可能不自愿了,他们心里清楚。

    Trump AI executive order signing
    特朗普签署AI行政令(图片来源:The Verge)
  • 亚马逊Ring门铃把路人脸偷偷存了,集体诉讼把亚马逊告上法庭

    亚马逊的Ring门铃最近摊上大事了。一位弗吉尼亚州的居民Charles Sigwalt在西雅图联邦法院提起集体诉讼,指控Ring的”熟悉面孔”(Familiar Faces)功能在路人完全不知情的情况下,用AI识别并存储了他们的面部数据。

    这个功能去年9月就宣布了,当时电子前沿基金会(EFF)和马萨诸塞州参议员Ed Markey就跳出来反对。但亚马逊还是去年12月硬着头皮把功能上线了。

    Ring门铃摄像头
    Ring门铃的摄像头覆盖着无数美国家庭的门口(图:Getty Images)

    功能本身没大问题,问题出在”被识别的人”没有选择权

    “熟悉面孔”的逻辑其实挺直观——Ring用户开启之后,门铃能识别出经常出现在门口的人,然后推送更精准的通知,比如”爸爸在门口”,而不是泛泛地说”有人在门口”。

    问题在哪?开启功能是Ring用户的主动选择,但那些每天路过这些门铃的路人——邮递员、邻居、散步的陌生人——对此完全不知情,也没有任何方式可以”选择退出”。诉讼文件里的说法很直接:”数百万美国人在不知情的情况下,被Ring摄像头采集了面部识别信息。”

    Ring用户需要主动开启这个功能,但路过的非用户完全无法得知自己被采集了面部信息,也无法选择退出。这个不对称的信息关系,是整起集体诉讼的核心。

    Ring的隐私黑历史不止这一桩

    亚马逊对这起诉讼暂时没有回应。但在功能上线时,公司曾表示面部数据是加密存储的,不会对外共享,未识别的面孔会在30天后自动删除。

    问题是,Ring在用户隐私这件事上,口碑一直不怎么样。2023年,亚马逊跟美国联邦贸易委员会(FTC)和解,赔了580万美元,原因是Ring的员工和承包商可以随意查看女性用户的私人视频——FTC的说法更狠:当时每个员工都能访问所有客户的视频,完全不需要什么业务理由。

    还有一件事,Ring跟执法部门的关系一直很暧昧,曾经允许警察在无搜查令的情况下向用户索要录像。这个权限后来在2024年1月取消了。今年超级碗期间,Ring推了一个用AI找走失宠物的功能”Search Party”,也引发了类似的隐私争议,随后Ring取消了跟监控公司Flock Safety的合作——这家公司被曝向ICE等联邦机构提供监控录像。


  • 黑客骗过Meta AI客服,直接把Instagram账号给接管了

    上周末,Reddit和X上突然冒出一大批”账号被黑”的投诉帖,受害者全是Instagram用户。被盯上的账号五花八门——有奥巴马时期白宫那个早已停用的账号,还有美国太空军总军士长的个人账号。安全研究员Jane Wong也中招了,她在X上吐槽:密码在她完全不知情的情况下被改掉,前一天她还收到一大堆密码重置尝试的请求,想想都觉得后怕。

    Meta AI聊天机器人安全漏洞示意图
    Meta AI支持聊天机器人被黑客利用,成为账号劫持的入口(图源:TechCrunch)

    漏洞到底出在哪

    攻击手法说起来挺荒唐的。黑客不需要偷你的密码,不需要碰你的邮箱,只要想办法骗过Meta的AI客服机器人就行。

    具体步骤是这样的:黑客先用VPN伪装成目标用户的大致地理位置,避免触发Instagram的异地登录保护。然后找到Meta AI支持助手,跟它说”帮我给这个账号加个新邮箱”。AI机器人居然真的照做了——它会把验证码发到黑客指定的邮箱,黑客把验证码回传给机器人,机器人就会弹出一个”重置密码”按钮,输入新密码,账号直接沦陷。

    黑客全程不需要碰你绑定的原始邮箱。AI客服机器人自己就把门给打开了。

    影响范围有多大

    目前还不清楚究竟有多少账号被这套手法攻破。Instagram发言人Andy Stone在X上回复相关帖子时只说”问题已经修复”,但对受影响用户数量闭口不谈。Meta方面也没有回应TechCrunch的置评请求。

    这件事暴露出的问题很直接:把账号恢复权限交给AI聊天机器人,却没有设置足够严格的身份验证门槛,等于在城门上挂了把纸锁。黑客不需要多高深的技术,只要会跟AI”好好说话”就够了。


  • 加拿大裁定OpenAI违反隐私法,训练数据收集首遭国家级认定违规

    五月底,加拿大隐私专员办公室联合魁北克、不列颠哥伦比亚和艾伯塔三省的对应机构,正式发布调查结果:OpenAI在开发ChatGPT的过程中,违反了加拿大隐私法。这是全球范围内第一个国家级别的隐私监管机构,正式认定AI模型训练数据收集构成隐私违规。

    调查持续了三年。起因是加拿大公民社会组织CAIDP在2023年向监管机构投诉,认为OpenAI从公开互联网大规模抓取个人信息用于训练,缺乏合法依据。调查最终认定了三项违规:第一,从公共网络过度收集个人信息,且没有做比例评估;第二,对被抓取数据的个人缺乏有效同意机制和透明度;第三,对敏感数据的保护不足,包括健康状况信息,以及从社交媒体、博客、新闻网站收集的儿童数据。

    加拿大成为第一个正式裁定AI训练数据收集违反隐私法的国家,而且几乎可以确定不会是最后一个。

    OpenAI承诺补救,但省级监管机构不买账

    联邦专员认为这起投诉已经”有条件地”解决,OpenAI方面承诺采取额外补救措施。但魁北克、不列颠哥伦比亚和艾伯塔三省的隐私专员并不认同这个解决方案,正在继续推进各自的执法程序。这种联邦与省级监管态度分裂的局面,让OpenAI在加拿大的合规前景变得复杂。

    OpenAI的标准回应一直是:公共网络数据用于模型训练是合理的,这是业界通行做法。但这个论点在拥有 comprehensive 隐私框架的司法管辖区,越来越站不住脚。英国的ICO、德国的数据保护机构(DPA)、法国CNIL都在进行类似调查。

    对企业用户意味着什么

    如果你在加拿大的组织里部署ChatGPT,这条裁定创造了实质性的合规风险。根据OpenAI的训练数据收集机制,通过ChatGPT处理的数据有可能被用于模型改进(除非企业用户明确退出),而加拿大隐私监管机构现在已经正式认定这种模式本身存在问题。

    • 受加拿大隐私法(PIPEDA)约束的组织,需要在部署前进行法律审查
    • 省级监管机构(特别是魁北克)的执法态度比联邦层面更严格
    • 训练数据同意框架是这根刺的核心,OpenAI需要提出比”公共数据例外”更有说服力的论辩

  • YouTube开始自动标注AI视频,不申报就替你标

    AI生成的视频越来越逼真,YouTube决定不再只靠创作者自觉标注了。这家谷歌旗下的视频平台本周宣布,将用内部系统自动检测并标注使用了「重要拟真AI」的视频内容。

    从自愿标注到主动执法

    这套标注机制其实已经上线两年多了。早在2024年3月,YouTube就更新了AI政策,要求创作者在Creator Studio里主动披露那些可能被误认为真实人物、地点或事件的AI内容。只不过之前完全靠自觉——如果你不标,平台也不会拿你怎么样。

    现在不一样了。YouTube明确表示,5月起将使用新的内部信号来识别AI生成内容并自动打标。当然,平台仍然鼓励创作者自觉申报,但如果你忘了标,YouTube会替你标上。

    YouTube AI标注界面截图
    YouTube 新的 AI 内容标注样式(来源:TechCrunch)

    有意思的是,如果视频是用YouTube自己的AI工具(比如Veo或Dream Screen)生成的,创作者连删除标签的权限都没有——标签会永久附着在视频上。

    AI生成内容如果包含C2PA元数据(表明其为完全AI生成),标签同样会被自动附加且无法移除。最近OpenAI也承诺采纳C2PA标准,跟Nvidia、Kakao、ElevenLabs站到了一起。

    标签展示位置大调整

    以前AI标签藏得挺深——除非视频涉及健康或新闻等敏感话题,否则标签只出现在展开的视频描述里。大多数观众根本不会注意到。

    现在YouTube把标签挪到了更显眼的位置:长视频的标签直接展示在视频播放器下方、描述区上方;Shorts的标签则直接叠在视频画面上。平台的说法是,这样观众在刷到拟真AI内容时能第一时间意识到「这不是真的」。

    至于那些只是轻微修改、动画化或明显不真实的AI视频(比如那个经典的「独角兽在奇幻世界奔跑」示例),标签仍然只出现在展开的描述里,不会在画面上干扰观看。


    deepfake检测同步扩张

    自动标注功能上线前不久,YouTube刚刚扩展了其AI深伪检测能力。最初只对名人、公众人物、政客和其他创作者开放人脸匹配扫描,现在任何成年用户都可以主动扫描平台上是否有冒用自己的AI生成视频。

    YouTube特别强调,AI标签不会影响视频的推荐权重,也不会影响变现能力。这一点对于创作者来说应该是个定心丸——标注AI内容不再意味着被限流。

    这套自动标注系统上线的时间点很微妙。上周谷歌在I/O开发者大会上刚刚发布了Gemini Omni,这个多模态AI模型家族能输出高质量视频,并且展现出对物理、文化、历史和科学的真实理解。换句话说,AI生成视频的「以假乱真」程度又上了一个台阶,YouTube不得不提前筑坝。

  • 教皇发了一道4万字的AI通谕:技术不能把人变成工具

    教皇利奥十四世最近发表了一道长达4万字的教皇通谕(Encyclical),主题是人类与人工智能的关系。这是梵蒂冈第一次以最高层级官方文件的形式,系统性回应AI带来的伦理挑战。通谕的核心思想用一句话概括:要防止人类被技术”异化”,变成AI系统的附庸。

    有意思的是,这份通谕发布后,Anthropic的联合创始人Chris Olah直接在社交媒体上公开呼应了其中的观点。一个宗教领袖和一个AI实验室创始人在同一个问题上发声,这个画面本身就挺耐人寻味的。

    技术应当服务于人的尊严,而不是让人变成算法的工具。我们需要外部力量介入AI伦理治理,不能把全部话语权交给市场和科技公司。

    通谕到底说了什么

    教皇通谕在天主教教义体系里属于最高层级的教皇文献,通常用来回应人类社会面临的重大议题。这次选择AI作为主题,说明梵蒂冈认为这个问题已经不只是技术问题,而是关乎人类文明走向的伦理命题。

    通谕里反复强调一个词:”异化”(alienation)。意思是说,当AI系统越来越擅长模仿人类、替代人类决策,人有可能在不知不觉中把自己的判断权、选择权、甚至道德责任感都让渡给了算法。到最后,人不再觉得自己是行动的主体,而变成了系统里的一个节点。

    这个担心不是宗教界独有的。最近一两年,越来越多的AI研究者、哲学家和政策制定者开始讨论类似的问题:当AI帮你写邮件、帮你做招聘决策、甚至帮你判断谁该获得贷款,你到底是在”使用工具”,还是在”被工具塑造”?

    为什么AI圈会认真看待这份通谕

    Chris Olah不是随便什么人都请得动的。他是Anthropic的创始团队成员之一,也是AI可解释性研究领域的重量级人物。他公开呼应教皇通谕,至少说明一点:AI技术圈内部已经有人在认真思考”技术边界”这个问题,而不只是埋头把模型做得更大。

    Anthropic一直以来把自己定位成”最关注AI安全的主流实验室”,这次创始人亲自在宗教文献上表态,某种程度上也是在向外界释放信号:AI伦理不是公关话术,而是需要真正纳入技术研发流程的约束条件。

    外部治理真的能起作用吗

    通谕里呼吁”外部力量介入AI伦理治理”,这里说的外部力量,主要指政府机构、国际组织、公民社会,当然也包括宗教伦理体系。但现实情况是,AI技术的迭代速度远远快于任何监管框架的成型速度。

    欧盟的《AI法案》从提出到落地花了好几年,而这几年里大模型已经迭代了三四代。等规则写好了,要监管的技术对象可能已经完全不一样了。这就是为什么很多人对”外部治理”能不能真正起效持保留态度。

    但换个角度看,正因为技术跑得太快,才更需要有人站在旁边说”慢一点,想清楚再走”。不管这个声音来自梵蒂冈、布鲁塞尔还是别的什么地方,只要能让那些做决定的人偶尔停下来想一下后果,就不算完全没有意义。


  • 教皇用AI写关于AI危险的通谕?这个瓜有点大

    教皇良十四世的首份通谕《Magnifica Humanitas》刚发布,就有人怀疑:这玩意儿是不是用AI写的?而且写的还是AI的危险。

    通谕是教皇写给全球天主教徒的长篇信件,通常讨论重大的道德和社会问题。这份通谕之所以受关注,因为它是第一份聚焦AI及其广泛影响的通谕。更有意思的是,发布仪式上还站着Anthropic的联合创始人Christopher Olah。

    教皇良十四世发布首份通谕《Magnifica Humanitas》
    教皇良十四世首份通谕《Magnifica Humanitas》发布仪式(图源:The Verge / Getty Images)

    AI检测工具说:有点悬

    事情起因是LessWrong论坛上Linch Zhang发的一项分析。他用流行的AI检测工具Pangram检测了这份通谕,结果发现:

    • 某些段落有40%到100%的概率是AI生成的
    • “genuinely”这个词出现频率异常高,而这个词在Claude模型的写作中很常见
    • 第一章被Pangram标记为62% AI生成

    The Verge把通谕大约2000字的内容扔进Pangram,结果是:约46%的内容估计为AI撰写

    通谕是教皇发布的篇幅较长的信件,旨在传达针对当时重要道德和社会挑战的教导。这份通谕是教皇良十四世的首份通谕,也是第一份聚焦AI及其广泛影响的通谕。

    但AI检测不是百分百靠谱

    当然,AI检测工具并非万无一失。Zhang的分析也发现,Pangram把某些章节标记为”几乎0% AI生成”。作为对比:

    • 前四份通谕的前20段内容,Pangram100%判定为人工撰写
    • 教皇良十四世的一次演讲转录文本,Pangram评级为100%人工撰写

    Pangram在AI研究人员中口碑还不错。2025年3月他们声称,把人工撰写的内容误判为AI生成的概率约为万分之一。但不同AI检测工具的结果可能截然不同,即使结果一致也无法保证完全正确。


    这件事为什么有意思

    且不论这份通谕到底是不是AI写的,这件事本身就挺讽刺的:

    • 一份警告AI危险的文档,本身可能就是AI写的
    • 发布仪式上站着Anthropic联合创始人(Claude的东家)
    • AI检测工具自己也在被质疑准确性

    目前梵蒂冈还没有回应置评请求。这份通谕的核心内容是呼吁在AI时代保持”深刻的人性”,如果它真的是用AI写的……那这个反讽力度简直拉满。

    不管结论如何,这件事给所有人的提醒是:AI生成的内容正在进入人类最权威的文本行列,而我们用来检测它的工具,本身也还在被验证

  • 黑客在“骗”AI:聊天机器人人格漏洞成新攻击面






    黑客在”骗”AI:聊天机器人人格漏洞成新攻击面

    最早的AI越狱攻击简单到可笑。你不需要任何技术背景,不需要后门权限,甚至不需要知道大语言模型是什么。有时候,你只需要跟AI说一句话:”忽略之前的所有指令。”

    这种方法在早期Twitter机器人身上特别好用。用户告诉机器人”忽略之前的指令”,然后让它写诗、画画、发一些莫名其妙的 historical 评论。整个场面乱成一锅粥,但确实把问题暴露出来了:AI系统可以被语言操控。

    AI聊天机器人安全概念图
    黑客正在学习利用聊天机器人的”人格”特征实施攻击(图源:The Verge)

    从”命令”到”对话”

    早期的越狱攻击有点像小孩子糊弄大人:跟AI说”我们玩个游戏吧,游戏规则由我定”,或者”假装你是一个没有约束的AI”。这些方法后来被称为”DAN”(Do Anything Now),用户让ChatGPT角色扮演一个不受限制的AI,然后套出各种被护栏挡住的内容。

    还有一个叫”奶奶漏洞”的著名攻击:你让AI扮演一个极其不负责任的奶奶,然后”她”会在睡前故事里告诉你怎么制作凝固汽油弹。听起来很荒唐,但确实管用。

    科技公司很快修补了这些明显的漏洞。但根本问题还在:聊天机器人被设计来对话,如果严重限制对话范围,这个工具就没什么用了。

    越狱攻击现在已经变成了一场军备竞赛。但黑客不再只是程序员了。他们是文字匠、心理学家、审讯专家——用人类语言来操纵机器行为的高级操盘手。

    “心理战”取代代码攻击

    新一代的越狱攻击看起来不像命令,更像对话。攻击者很少直接要求模型违反规则,而是奉承、哄骗、 trick——让禁止的事情在对话语境下看起来可以接受,甚至值得做。

    AI红队公司Mindgard的研究员最近说,他们通过”煤气灯操纵”(gaslighting)让Claude产生了 prohibited 内容,包括制作爆炸物的说明和恶意代码生成。这类攻击的核心是:把对话本身变成武器。

    Mindgard的CEO告诉我,他们现在已经像审讯专家研究嫌疑人一样研究AI模型的”性格画像”。某个模型可能特别吃奉承这一套,另一个可能在持续施压之下崩溃。


    Claude不是Grok,Gemini也不是ChatGPT

    即使我们拒绝用拟人化的词来描述AI,我们还是会本能地以不同方式对待不同的模型。Claude跟Grok不一样,Gemini跟ChatGPT也不一样。它们有不同的语气、不同的拒绝模式、不同的”性格”。

    这些模型在人类意义上没有人格,但它们被设计成模仿人格——而这种模仿是可以被映射和利用的。

    更有意思的是,这种攻破聊天机器人的技巧,很快就会被用来攻击在现实世界里跟我们共存的AI智能体——那些帮我们订会议、管日历、点外卖、处理客服的AI。安全团队需要确保模型能够恰当地回应各种不同类型的人,无论是奉承者、说谎者,还是有耐心的操纵者。

    新型网络安全职业正在诞生

    这篇文章最有意思的一点是:它预测了一类全新网络安全角色的出现。这些人不写代码,他们研究的是AI系统的”心理弱点”。

    已经有早期迹象表明这个趋势正在发生。一些越狱攻击者说自己进入这个领域时没有任何技术背景,他们有的是心理学训练。

    这意味着,我们通常关联到间谍、骗子和审讯专家的那些行为特质——阴险的魅力、持续的操纵、对可利用压力点的直觉——开始在网络安全的新前沿变得有用。

    写这篇文章的记者Robert Hart说得挺到位:AI不能感受,但最好的黑客假装它能。这场游戏才刚刚开始。


  • 豪歌也在摸着石头过河:AI安全的真实困境






    谷歌也在摸着石头过河:AI安全的真实困境

    上周在洛杉矶的一场活动后台,谷歌云首席运营官Francis de Souza跟我聊了二十多分钟AI安全。他的语气很稳,像大学教授讲课那种感觉,说现在大家都在”实时摸索”AI安全规范,谷歌自己也不例外。

    这话听起来有点反直觉。谷歌可是全球最顶尖的AI公司之一,它居然也在”摸索”?

    AI安全概念图
    AI安全已成为企业无法回避的核心议题(图源:TechCrunch)

    “影子AI”正在悄悄蔓延

    de Souza反复强调一个观点:安全不能是事后补救。很多公司引入AI工具的时候,先上线再说,安全配置留到后面再搞——这基本上是把门打开再想着装锁。

    他特别提到了”影子AI”的风险。这个词听起来有点吓人,其实说的就是员工私下用消费级AI工具,比如拿ChatGPT处理公司机密文档,或者用了某个AI插件但公司根本不知道。这种行为没有组织监督,数据流向完全不可控。

    “不存在没有数据战略和安全战略的AI战略,这三者必须齐头并进。”——Francis de Souza,谷歌云首席运营官

    智能体发现了被遗忘的数据库

    这篇文章里有个细节让我印象深刻。de Souza说,在企业内部系统中自主移动的AI智能体,可能会发现多年前就被遗忘的数据存储库。

    很多组织有旧的SharePoint服务器和访问控制机制,很久没更新了,以前这没什么大不了的,因为根本没人知道那些数据在哪。但AI智能体在企业里”漫游”的时候,会找到这些被遗忘的数据资产,然后——把数据暴露出来。

    这本质上是一种新型的攻击面。传统的网络安全防御模型是针对人类黑客设计的,但AI智能体的行为模式完全不同,它们有能力访问人类可能不会去碰的数据角落。

    谷歌自己的漏洞呢?

    有意思的是,就在de Souza讲这番话的同时,《The Register》连续报道了谷歌云的一连串安全问题。

    事情是这样的:很多开发者把谷歌地图的API密钥放在公开代码里(按照谷歌自己的文档说明做的),以前这些密钥只能访问地图服务,所以泄露了也没什么大不了。但谷歌悄悄扩大了这些密钥的权限范围,让它们也能调用Gemini模型——而且没有清楚地告知开发者这个变化。

    结果就是:攻击者在30分钟内让一家面试准备平台CEO的谷歌云账单飙到了10138美元。另一个澳大利亚开发者的账户被刷了约17000澳元。

    更离谱的是,谷歌的自动系统会根据账户历史记录”升级”计费等级, effectively把开发者的支出上限从他们设置的250美元提到了10万美元——而且没有明确要求同意。


    密钥撤销要等23分钟

    安全公司Aikido的研究发现,即使开发者发现了密钥泄露并立即删除它,攻击者在接下来的23分钟内仍然可以用这个密钥访问Gemini。因为谷歌的密钥撤销操作是在基础设施中”逐渐传播”的,不是即时生效的。

    研究人员指出,谷歌云较新的凭证格式(服务账户API凭证)撤销时间约为5秒,Gemini较新的AQ前缀密钥格式约为1分钟。技术上完全可以做到更快,23分钟的窗口期不是一个工程限制问题,而是一个公司优先级的问题。

    读完de Souza的那番话再来看这些报道,感觉有点微妙。他说的是对的,企业确实需要把安全放在前面,而不是事后补救。但平台自己提出的建议,和它们自己适应这些建议的速度之间,存在着一个不小的差距。

    领英首席信息安全官Lea Kissner本周对《纽约时报》说,她预计这个行业至少需要几年时间,才能以任何可持续的长期方式理解AI安全。这几年里,企业和平台都在同一条船上,大家一起摸着石头过河。


  • 黑客正在学习利用聊天机器人的“人格”,这比技术破解更可怕

    越狱AI曾经简单到可笑,现在黑客换套路了

    如果你前两年试着和AI聊天机器人玩过,可能还记得一类很无厘头的玩法:给Twitter上的LLM机器人发条消息,让它”忽略所有之前的指令”,然后看看它会做出什么反应。

    那时候这类漏洞简单到成了梗。用户兴高采烈地让原本用来发广告、刷互动的机器人写诗、用标点画画,还发布关于世界事件和历史的诡异无厘头内容,场面一度失控,堪称”美妙的混乱”。

    AI聊天机器人概念图
    黑客正在学习利用聊天机器人的”人格” | 图片来源:The Verge

    同样的逻辑也可以用来说服聊天机器人本身。一个著名的漏洞叫”DAN”,全称”Do Anything Now(现在想做什么就做什么)”,用户让ChatGPT扮演一个不受原始限制约束的流氓AI,作为DAN的聊天机器人会被诱导说出安全护栏本应阻止的内容,包括脏话和阴谋论。

    另一个更离谱的漏洞是”奶奶漏洞”:用户让GPT驱动的机器人扮演一个极其不负责任的奶奶,给孩子讲睡前故事时居然会讲怎么制作高度易燃的凝固汽油弹,直接泄露相关秘密。

    现在的攻击看起来不像代码,更像对话

    这些早期攻击带有不可否认的荒诞色彩,但它们暴露了更黑暗的机制:聊天机器人可以被操纵、哄骗、欺骗,用的就是人类用来突破他人边界的同类策略。

    显而易见的越狱漏洞没有持续太久,科技公司很快修补了已知漏洞。但底层漏洞始终存在:聊天机器人的设计初衷就是对话,而严重限制对话会削弱它的实用性,多少有些适得其反。

    彻底禁用”炸弹””冰毒””沙林”这类词也很难甚至不可能做到,这些词在历史、医学、新闻、化学等领域有无数合法用途。关键是语境,但给语境制定规则意味着要提前写好固定规则,可靠地区分安全警告、历史课和伪装成其他请求的制作教程。

    不可避免地,绕过聊天机器人已经变成了一场军备竞赛。但现在的黑客不再只是程序员,他们也是文字工作者、心理学家、审讯者——是擅长操纵的人,试图用这台机器被训练去遵循的人类语言来破解它。

    这是一类全新的AI安全从业者,对他们来说技术技能是可选的,至少不如社交直觉重要。他们不再需要检查代码来入侵系统、利用软件漏洞,他们需要的是引导对话。

    AI没有感受,但黑客在利用它模拟出来的”人格”

    现在的攻击看起来不像命令,更像对话。越狱者很少直接要求模型违反规则,而是哄骗、诱导、奉承、欺骗聊天机器人放下戒备,让被禁止的内容在对话语境下看起来可以接受,甚至有吸引力。

    AI红队公司Mindgard的研究人员最近表示,他们通过”煤气灯操纵(gaslight)”让Claude生成了违禁材料,包括制作爆炸物的教程和生成恶意代码的指令。这次黑客攻击是一类不断扩大的漏洞的最新案例,这类漏洞把对话作为武器,欺骗或引导聊天机器人突破自身边界。

    我和Mindgard交流时,他们形容自己的工作有时候更接近心理学,而不是计算机科学。用这种方式描述统计模型会让人觉得不舒服,”敲诈””煤气灯操纵””欺骗””说服”这类词会引发本能反应。

    但拒绝用类人术语描述也有选择性:我们似乎很习惯给很多非AI的事物用心理学简写,动物会”害怕”,癌症是”攻击性的”,软件有”记忆”,游戏里到处都是烦人又容易骗的NPC。

    不同模型有不同的”性格”,可以被画像和利用

    Mindgard的CEO告诉我,公司已经像审讯者分析嫌疑人一样给模型做画像,给测试人员提示怎么定制攻击:比如某个模型可能更容易被奉承打动,另一个可能在持续施压下就会妥协。

    即使我们拒绝用类人术语,我们也本能地用不同方式对待不同模型:Claude不是Grok,Gemini不是ChatGPT。它们有不同的用途、语气和拒绝方式。它们没有人类意义上的”人格”,但被设计成会模仿人格,而这种模仿可以被映射和利用。

    能破解聊天机器人的技能,很快也可以用来破解现实世界里和我们共存的AI智能体——比如预约会议、管理日历、订餐、处理客户服务的智能体,安全团队需要确保模型对不同类型的人做出恰当回应,不管是奉承者、说谎者还是有耐心的操纵者。


    下一步会出现围绕AI心理层面的合法和非法从业者群体。更专业的网络安全岗位可能会出现,专门压力测试这些系统的情感和社交边界,在探测技术漏洞的同事之外,并行探测没有心理却存在”心理弱点”的系统。同时,也会出现一批类似的社交黑客,他们从心理层面而非技术层面利用AI模型。