标签： AI监管

特朗普签了份AI行政令：模型发布前可自愿接受政府审查
美国总统特朗普本周二签了一份行政令，要求AI公司在模型正式发布前，可以自愿把模型提交给联邦政府审查。说自愿，是因为企业可以自己决定交不交，但一旦交了，政府会评估模型的高级网络能力，企业这边也能拿到相应的保密保护。

之前说不监管，现在为什么改主意了

特朗普对AI监管的态度转变挺有意思。他之前一直主张不让监管扼杀创新，甚至一度推迟签署AI相关行政令，理由是怕影响美国跟中国的AI竞争。结果这次的行政令写得挺明确：AI的新能力确实伴随安全风险，政府不能装看不见。

触发这次转向的直接原因，很可能是Anthropic在今年4月有限度发布的Mythos模型。Anthropic自己说，这个模型发现了数千个高危漏洞，主流操作系统和网页浏览器全都中招。这话一出，华盛顿那边坐不住了。

Anthropic的Mythos模型在测试中发现：所有主流操作系统和网页浏览器都存在高危漏洞——这话是Anthropic自己说的，不是政府说的。

更有意思的是，Anthropic之前跟五角大楼因为AI用于自主致命武器和大规模监控的问题闹过法律纠纷。这次Mythos一发布，双方关系反而出现了缓和迹象。有时候，一个技术演示比十轮谈判都管用。

行政令到底说了什么
- 企业可以自愿提交模型，提交后最多30天内完成审查
- 审查聚焦模型的高级网络能力，不是全面安全审计
- 提交企业获得保密保护，政府不会随意公开模型细节
- 联邦政府同步强化针对AI攻击的网络防御，重点保护关键基础设施
- 行政令明确：这不是强制许可，也不是发布前审批
这份行政令其实有个前传。去年5月，谷歌、微软、xAI就同意让美国商务部下属的AI标准与创新中心（CAISI）在模型发布前做审查。OpenAI和Anthropic更早，2024年拜登还在任的时候就签了类似协议。所以特朗普这次，某种程度上是把拜登时期的实际做法给正式化了，只是换了个”自愿”的名义。

行业买账吗

出乎意料的是，这份行政令居然获得了AI安全倡导团体的认可。美国负责任创新组织的主席布拉德·卡森发表声明说，”白宫正式接受了Mythos传递的信号”。安全AI联盟的CEO也表示，很高兴看到特朗普政府认真对待模型风险。

但这帮人并不满足于自愿框架。他们还在敦促国会立法，把这些保护措施变成强制要求。自愿这个东西，换了届政府就可能不自愿了，他们心里清楚。

特朗普签署AI行政令（图片来源：The Verge）

📎 原文来源：The Verge – Trump signs executive order to review AI models before they’re released
2026年6月3日
亚马逊Ring门铃把路人脸偷偷存了，集体诉讼把亚马逊告上法庭

亚马逊的Ring门铃最近摊上大事了。一位弗吉尼亚州的居民Charles Sigwalt在西雅图联邦法院提起集体诉讼，指控Ring的”熟悉面孔”（Familiar Faces）功能在路人完全不知情的情况下，用AI识别并存储了他们的面部数据。

这个功能去年9月就宣布了，当时电子前沿基金会（EFF）和马萨诸塞州参议员Ed Markey就跳出来反对。但亚马逊还是去年12月硬着头皮把功能上线了。

Ring门铃的摄像头覆盖着无数美国家庭的门口（图：Getty Images）

功能本身没大问题，问题出在”被识别的人”没有选择权

“熟悉面孔”的逻辑其实挺直观——Ring用户开启之后，门铃能识别出经常出现在门口的人，然后推送更精准的通知，比如”爸爸在门口”，而不是泛泛地说”有人在门口”。

问题在哪？开启功能是Ring用户的主动选择，但那些每天路过这些门铃的路人——邮递员、邻居、散步的陌生人——对此完全不知情，也没有任何方式可以”选择退出”。诉讼文件里的说法很直接：”数百万美国人在不知情的情况下，被Ring摄像头采集了面部识别信息。”

Ring用户需要主动开启这个功能，但路过的非用户完全无法得知自己被采集了面部信息，也无法选择退出。这个不对称的信息关系，是整起集体诉讼的核心。

Ring的隐私黑历史不止这一桩

亚马逊对这起诉讼暂时没有回应。但在功能上线时，公司曾表示面部数据是加密存储的，不会对外共享，未识别的面孔会在30天后自动删除。

问题是，Ring在用户隐私这件事上，口碑一直不怎么样。2023年，亚马逊跟美国联邦贸易委员会（FTC）和解，赔了580万美元，原因是Ring的员工和承包商可以随意查看女性用户的私人视频——FTC的说法更狠：当时每个员工都能访问所有客户的视频，完全不需要什么业务理由。

还有一件事，Ring跟执法部门的关系一直很暧昧，曾经允许警察在无搜查令的情况下向用户索要录像。这个权限后来在2024年1月取消了。今年超级碗期间，Ring推了一个用AI找走失宠物的功能”Search Party”，也引发了类似的隐私争议，随后Ring取消了跟监控公司Flock Safety的合作——这家公司被曝向ICE等联邦机构提供监控录像。

📎 原文来源：TechCrunch — Amazon faces class action lawsuit over Ring facial-recognition feature

2026年6月3日
黑客骗过Meta AI客服，直接把Instagram账号给接管了

上周末，Reddit和X上突然冒出一大批”账号被黑”的投诉帖，受害者全是Instagram用户。被盯上的账号五花八门——有奥巴马时期白宫那个早已停用的账号，还有美国太空军总军士长的个人账号。安全研究员Jane Wong也中招了，她在X上吐槽：密码在她完全不知情的情况下被改掉，前一天她还收到一大堆密码重置尝试的请求，想想都觉得后怕。

Meta AI支持聊天机器人被黑客利用，成为账号劫持的入口（图源：TechCrunch）

漏洞到底出在哪

攻击手法说起来挺荒唐的。黑客不需要偷你的密码，不需要碰你的邮箱，只要想办法骗过Meta的AI客服机器人就行。

具体步骤是这样的：黑客先用VPN伪装成目标用户的大致地理位置，避免触发Instagram的异地登录保护。然后找到Meta AI支持助手，跟它说”帮我给这个账号加个新邮箱”。AI机器人居然真的照做了——它会把验证码发到黑客指定的邮箱，黑客把验证码回传给机器人，机器人就会弹出一个”重置密码”按钮，输入新密码，账号直接沦陷。

黑客全程不需要碰你绑定的原始邮箱。AI客服机器人自己就把门给打开了。

影响范围有多大

目前还不清楚究竟有多少账号被这套手法攻破。Instagram发言人Andy Stone在X上回复相关帖子时只说”问题已经修复”，但对受影响用户数量闭口不谈。Meta方面也没有回应TechCrunch的置评请求。

这件事暴露出的问题很直接：把账号恢复权限交给AI聊天机器人，却没有设置足够严格的身份验证门槛，等于在城门上挂了把纸锁。黑客不需要多高深的技术，只要会跟AI”好好说话”就够了。

📎 原文来源：Hackers hijacked Instagram accounts by tricking Meta AI support chatbot into granting access — TechCrunch

2026年6月2日
加拿大裁定OpenAI违反隐私法，训练数据收集首遭国家级认定违规
五月底，加拿大隐私专员办公室联合魁北克、不列颠哥伦比亚和艾伯塔三省的对应机构，正式发布调查结果：OpenAI在开发ChatGPT的过程中，违反了加拿大隐私法。这是全球范围内第一个国家级别的隐私监管机构，正式认定AI模型训练数据收集构成隐私违规。

调查持续了三年。起因是加拿大公民社会组织CAIDP在2023年向监管机构投诉，认为OpenAI从公开互联网大规模抓取个人信息用于训练，缺乏合法依据。调查最终认定了三项违规：第一，从公共网络过度收集个人信息，且没有做比例评估；第二，对被抓取数据的个人缺乏有效同意机制和透明度；第三，对敏感数据的保护不足，包括健康状况信息，以及从社交媒体、博客、新闻网站收集的儿童数据。

加拿大成为第一个正式裁定AI训练数据收集违反隐私法的国家，而且几乎可以确定不会是最后一个。

OpenAI承诺补救，但省级监管机构不买账

联邦专员认为这起投诉已经”有条件地”解决，OpenAI方面承诺采取额外补救措施。但魁北克、不列颠哥伦比亚和艾伯塔三省的隐私专员并不认同这个解决方案，正在继续推进各自的执法程序。这种联邦与省级监管态度分裂的局面，让OpenAI在加拿大的合规前景变得复杂。

OpenAI的标准回应一直是：公共网络数据用于模型训练是合理的，这是业界通行做法。但这个论点在拥有 comprehensive 隐私框架的司法管辖区，越来越站不住脚。英国的ICO、德国的数据保护机构（DPA）、法国CNIL都在进行类似调查。

对企业用户意味着什么

如果你在加拿大的组织里部署ChatGPT，这条裁定创造了实质性的合规风险。根据OpenAI的训练数据收集机制，通过ChatGPT处理的数据有可能被用于模型改进（除非企业用户明确退出），而加拿大隐私监管机构现在已经正式认定这种模式本身存在问题。
- 受加拿大隐私法（PIPEDA）约束的组织，需要在部署前进行法律审查
- 省级监管机构（特别是魁北克）的执法态度比联邦层面更严格
- 训练数据同意框架是这根刺的核心，OpenAI需要提出比”公共数据例外”更有说服力的论辩
📎 原文来源：AI News Today — May 28, 2026: 11 Biggest Stories
2026年5月28日
YouTube开始自动标注AI视频，不申报就替你标

AI生成的视频越来越逼真，YouTube决定不再只靠创作者自觉标注了。这家谷歌旗下的视频平台本周宣布，将用内部系统自动检测并标注使用了「重要拟真AI」的视频内容。

从自愿标注到主动执法

这套标注机制其实已经上线两年多了。早在2024年3月，YouTube就更新了AI政策，要求创作者在Creator Studio里主动披露那些可能被误认为真实人物、地点或事件的AI内容。只不过之前完全靠自觉——如果你不标，平台也不会拿你怎么样。

现在不一样了。YouTube明确表示，5月起将使用新的内部信号来识别AI生成内容并自动打标。当然，平台仍然鼓励创作者自觉申报，但如果你忘了标，YouTube会替你标上。

YouTube 新的 AI 内容标注样式（来源：TechCrunch）

有意思的是，如果视频是用YouTube自己的AI工具（比如Veo或Dream Screen）生成的，创作者连删除标签的权限都没有——标签会永久附着在视频上。

AI生成内容如果包含C2PA元数据（表明其为完全AI生成），标签同样会被自动附加且无法移除。最近OpenAI也承诺采纳C2PA标准，跟Nvidia、Kakao、ElevenLabs站到了一起。

标签展示位置大调整

以前AI标签藏得挺深——除非视频涉及健康或新闻等敏感话题，否则标签只出现在展开的视频描述里。大多数观众根本不会注意到。

现在YouTube把标签挪到了更显眼的位置：长视频的标签直接展示在视频播放器下方、描述区上方；Shorts的标签则直接叠在视频画面上。平台的说法是，这样观众在刷到拟真AI内容时能第一时间意识到「这不是真的」。

至于那些只是轻微修改、动画化或明显不真实的AI视频（比如那个经典的「独角兽在奇幻世界奔跑」示例），标签仍然只出现在展开的描述里，不会在画面上干扰观看。

deepfake检测同步扩张

自动标注功能上线前不久，YouTube刚刚扩展了其AI深伪检测能力。最初只对名人、公众人物、政客和其他创作者开放人脸匹配扫描，现在任何成年用户都可以主动扫描平台上是否有冒用自己的AI生成视频。

YouTube特别强调，AI标签不会影响视频的推荐权重，也不会影响变现能力。这一点对于创作者来说应该是个定心丸——标注AI内容不再意味着被限流。

这套自动标注系统上线的时间点很微妙。上周谷歌在I/O开发者大会上刚刚发布了Gemini Omni，这个多模态AI模型家族能输出高质量视频，并且展现出对物理、文化、历史和科学的真实理解。换句话说，AI生成视频的「以假乱真」程度又上了一个台阶，YouTube不得不提前筑坝。

📎 原文来源：YouTube will now automatically label AI videos — TechCrunch

2026年5月28日
教皇发了一道4万字的AI通谕：技术不能把人变成工具

教皇利奥十四世最近发表了一道长达4万字的教皇通谕（Encyclical），主题是人类与人工智能的关系。这是梵蒂冈第一次以最高层级官方文件的形式，系统性回应AI带来的伦理挑战。通谕的核心思想用一句话概括：要防止人类被技术”异化”，变成AI系统的附庸。

有意思的是，这份通谕发布后，Anthropic的联合创始人Chris Olah直接在社交媒体上公开呼应了其中的观点。一个宗教领袖和一个AI实验室创始人在同一个问题上发声，这个画面本身就挺耐人寻味的。

技术应当服务于人的尊严，而不是让人变成算法的工具。我们需要外部力量介入AI伦理治理，不能把全部话语权交给市场和科技公司。

通谕到底说了什么

教皇通谕在天主教教义体系里属于最高层级的教皇文献，通常用来回应人类社会面临的重大议题。这次选择AI作为主题，说明梵蒂冈认为这个问题已经不只是技术问题，而是关乎人类文明走向的伦理命题。

通谕里反复强调一个词：”异化”（alienation）。意思是说，当AI系统越来越擅长模仿人类、替代人类决策，人有可能在不知不觉中把自己的判断权、选择权、甚至道德责任感都让渡给了算法。到最后，人不再觉得自己是行动的主体，而变成了系统里的一个节点。

这个担心不是宗教界独有的。最近一两年，越来越多的AI研究者、哲学家和政策制定者开始讨论类似的问题：当AI帮你写邮件、帮你做招聘决策、甚至帮你判断谁该获得贷款，你到底是在”使用工具”，还是在”被工具塑造”？

为什么AI圈会认真看待这份通谕

Chris Olah不是随便什么人都请得动的。他是Anthropic的创始团队成员之一，也是AI可解释性研究领域的重量级人物。他公开呼应教皇通谕，至少说明一点：AI技术圈内部已经有人在认真思考”技术边界”这个问题，而不只是埋头把模型做得更大。

Anthropic一直以来把自己定位成”最关注AI安全的主流实验室”，这次创始人亲自在宗教文献上表态，某种程度上也是在向外界释放信号：AI伦理不是公关话术，而是需要真正纳入技术研发流程的约束条件。

外部治理真的能起作用吗

通谕里呼吁”外部力量介入AI伦理治理”，这里说的外部力量，主要指政府机构、国际组织、公民社会，当然也包括宗教伦理体系。但现实情况是，AI技术的迭代速度远远快于任何监管框架的成型速度。

欧盟的《AI法案》从提出到落地花了好几年，而这几年里大模型已经迭代了三四代。等规则写好了，要监管的技术对象可能已经完全不一样了。这就是为什么很多人对”外部治理”能不能真正起效持保留态度。

但换个角度看，正因为技术跑得太快，才更需要有人站在旁边说”慢一点，想清楚再走”。不管这个声音来自梵蒂冈、布鲁塞尔还是别的什么地方，只要能让那些做决定的人偶尔停下来想一下后果，就不算完全没有意义。

📎 原文来源：AI早报 2026年05月27日 — 内参AI

2026年5月27日
教皇用AI写关于AI危险的通谕？这个瓜有点大
教皇良十四世的首份通谕《Magnifica Humanitas》刚发布，就有人怀疑：这玩意儿是不是用AI写的？而且写的还是AI的危险。

通谕是教皇写给全球天主教徒的长篇信件，通常讨论重大的道德和社会问题。这份通谕之所以受关注，因为它是第一份聚焦AI及其广泛影响的通谕。更有意思的是，发布仪式上还站着Anthropic的联合创始人Christopher Olah。

教皇良十四世首份通谕《Magnifica Humanitas》发布仪式（图源：The Verge / Getty Images）

AI检测工具说：有点悬

事情起因是LessWrong论坛上Linch Zhang发的一项分析。他用流行的AI检测工具Pangram检测了这份通谕，结果发现：
- 某些段落有40%到100%的概率是AI生成的
- “genuinely”这个词出现频率异常高，而这个词在Claude模型的写作中很常见
- 第一章被Pangram标记为62% AI生成
The Verge把通谕大约2000字的内容扔进Pangram，结果是：约46%的内容估计为AI撰写。

通谕是教皇发布的篇幅较长的信件，旨在传达针对当时重要道德和社会挑战的教导。这份通谕是教皇良十四世的首份通谕，也是第一份聚焦AI及其广泛影响的通谕。

但AI检测不是百分百靠谱

当然，AI检测工具并非万无一失。Zhang的分析也发现，Pangram把某些章节标记为”几乎0% AI生成”。作为对比：
- 前四份通谕的前20段内容，Pangram100%判定为人工撰写
- 教皇良十四世的一次演讲转录文本，Pangram评级为100%人工撰写
Pangram在AI研究人员中口碑还不错。2025年3月他们声称，把人工撰写的内容误判为AI生成的概率约为万分之一。但不同AI检测工具的结果可能截然不同，即使结果一致也无法保证完全正确。

这件事为什么有意思

且不论这份通谕到底是不是AI写的，这件事本身就挺讽刺的：
- 一份警告AI危险的文档，本身可能就是AI写的
- 发布仪式上站着Anthropic联合创始人（Claude的东家）
- AI检测工具自己也在被质疑准确性
目前梵蒂冈还没有回应置评请求。这份通谕的核心内容是呼吁在AI时代保持”深刻的人性”，如果它真的是用AI写的……那这个反讽力度简直拉满。

不管结论如何，这件事给所有人的提醒是：AI生成的内容正在进入人类最权威的文本行列，而我们用来检测它的工具，本身也还在被验证。

📎 原文来源：Did the Pope use AI to write about the dangers of AI? | The Verge
2026年5月27日
黑客在“骗”AI：聊天机器人人格漏洞成新攻击面

黑客在”骗”AI：聊天机器人人格漏洞成新攻击面

最早的AI越狱攻击简单到可笑。你不需要任何技术背景，不需要后门权限，甚至不需要知道大语言模型是什么。有时候，你只需要跟AI说一句话：”忽略之前的所有指令。”

这种方法在早期Twitter机器人身上特别好用。用户告诉机器人”忽略之前的指令”，然后让它写诗、画画、发一些莫名其妙的 historical 评论。整个场面乱成一锅粥，但确实把问题暴露出来了：AI系统可以被语言操控。

黑客正在学习利用聊天机器人的”人格”特征实施攻击（图源：The Verge）

从”命令”到”对话”

早期的越狱攻击有点像小孩子糊弄大人：跟AI说”我们玩个游戏吧，游戏规则由我定”，或者”假装你是一个没有约束的AI”。这些方法后来被称为”DAN”（Do Anything Now），用户让ChatGPT角色扮演一个不受限制的AI，然后套出各种被护栏挡住的内容。

还有一个叫”奶奶漏洞”的著名攻击：你让AI扮演一个极其不负责任的奶奶，然后”她”会在睡前故事里告诉你怎么制作凝固汽油弹。听起来很荒唐，但确实管用。

科技公司很快修补了这些明显的漏洞。但根本问题还在：聊天机器人被设计来对话，如果严重限制对话范围，这个工具就没什么用了。

越狱攻击现在已经变成了一场军备竞赛。但黑客不再只是程序员了。他们是文字匠、心理学家、审讯专家——用人类语言来操纵机器行为的高级操盘手。

“心理战”取代代码攻击

新一代的越狱攻击看起来不像命令，更像对话。攻击者很少直接要求模型违反规则，而是奉承、哄骗、 trick——让禁止的事情在对话语境下看起来可以接受，甚至值得做。

AI红队公司Mindgard的研究员最近说，他们通过”煤气灯操纵”（gaslighting）让Claude产生了 prohibited 内容，包括制作爆炸物的说明和恶意代码生成。这类攻击的核心是：把对话本身变成武器。

Mindgard的CEO告诉我，他们现在已经像审讯专家研究嫌疑人一样研究AI模型的”性格画像”。某个模型可能特别吃奉承这一套，另一个可能在持续施压之下崩溃。

Claude不是Grok，Gemini也不是ChatGPT

即使我们拒绝用拟人化的词来描述AI，我们还是会本能地以不同方式对待不同的模型。Claude跟Grok不一样，Gemini跟ChatGPT也不一样。它们有不同的语气、不同的拒绝模式、不同的”性格”。

这些模型在人类意义上没有人格，但它们被设计成模仿人格——而这种模仿是可以被映射和利用的。

更有意思的是，这种攻破聊天机器人的技巧，很快就会被用来攻击在现实世界里跟我们共存的AI智能体——那些帮我们订会议、管日历、点外卖、处理客服的AI。安全团队需要确保模型能够恰当地回应各种不同类型的人，无论是奉承者、说谎者，还是有耐心的操纵者。

新型网络安全职业正在诞生

这篇文章最有意思的一点是：它预测了一类全新网络安全角色的出现。这些人不写代码，他们研究的是AI系统的”心理弱点”。

已经有早期迹象表明这个趋势正在发生。一些越狱攻击者说自己进入这个领域时没有任何技术背景，他们有的是心理学训练。

这意味着，我们通常关联到间谍、骗子和审讯专家的那些行为特质——阴险的魅力、持续的操纵、对可利用压力点的直觉——开始在网络安全的新前沿变得有用。

写这篇文章的记者Robert Hart说得挺到位：AI不能感受，但最好的黑客假装它能。这场游戏才刚刚开始。

📎 原文来源：Hackers are learning to exploit chatbot ‘personalities’ (The Verge)

2026年5月26日
豪歌也在摸着石头过河：AI安全的真实困境

谷歌也在摸着石头过河：AI安全的真实困境

上周在洛杉矶的一场活动后台，谷歌云首席运营官Francis de Souza跟我聊了二十多分钟AI安全。他的语气很稳，像大学教授讲课那种感觉，说现在大家都在”实时摸索”AI安全规范，谷歌自己也不例外。

这话听起来有点反直觉。谷歌可是全球最顶尖的AI公司之一，它居然也在”摸索”？

AI安全已成为企业无法回避的核心议题（图源：TechCrunch）

“影子AI”正在悄悄蔓延

de Souza反复强调一个观点：安全不能是事后补救。很多公司引入AI工具的时候，先上线再说，安全配置留到后面再搞——这基本上是把门打开再想着装锁。

他特别提到了”影子AI”的风险。这个词听起来有点吓人，其实说的就是员工私下用消费级AI工具，比如拿ChatGPT处理公司机密文档，或者用了某个AI插件但公司根本不知道。这种行为没有组织监督，数据流向完全不可控。

“不存在没有数据战略和安全战略的AI战略，这三者必须齐头并进。”——Francis de Souza，谷歌云首席运营官

智能体发现了被遗忘的数据库

这篇文章里有个细节让我印象深刻。de Souza说，在企业内部系统中自主移动的AI智能体，可能会发现多年前就被遗忘的数据存储库。

很多组织有旧的SharePoint服务器和访问控制机制，很久没更新了，以前这没什么大不了的，因为根本没人知道那些数据在哪。但AI智能体在企业里”漫游”的时候，会找到这些被遗忘的数据资产，然后——把数据暴露出来。

这本质上是一种新型的攻击面。传统的网络安全防御模型是针对人类黑客设计的，但AI智能体的行为模式完全不同，它们有能力访问人类可能不会去碰的数据角落。

谷歌自己的漏洞呢？

有意思的是，就在de Souza讲这番话的同时，《The Register》连续报道了谷歌云的一连串安全问题。

事情是这样的：很多开发者把谷歌地图的API密钥放在公开代码里（按照谷歌自己的文档说明做的），以前这些密钥只能访问地图服务，所以泄露了也没什么大不了。但谷歌悄悄扩大了这些密钥的权限范围，让它们也能调用Gemini模型——而且没有清楚地告知开发者这个变化。

结果就是：攻击者在30分钟内让一家面试准备平台CEO的谷歌云账单飙到了10138美元。另一个澳大利亚开发者的账户被刷了约17000澳元。

更离谱的是，谷歌的自动系统会根据账户历史记录”升级”计费等级， effectively把开发者的支出上限从他们设置的250美元提到了10万美元——而且没有明确要求同意。

密钥撤销要等23分钟

安全公司Aikido的研究发现，即使开发者发现了密钥泄露并立即删除它，攻击者在接下来的23分钟内仍然可以用这个密钥访问Gemini。因为谷歌的密钥撤销操作是在基础设施中”逐渐传播”的，不是即时生效的。

研究人员指出，谷歌云较新的凭证格式（服务账户API凭证）撤销时间约为5秒，Gemini较新的AQ前缀密钥格式约为1分钟。技术上完全可以做到更快，23分钟的窗口期不是一个工程限制问题，而是一个公司优先级的问题。

读完de Souza的那番话再来看这些报道，感觉有点微妙。他说的是对的，企业确实需要把安全放在前面，而不是事后补救。但平台自己提出的建议，和它们自己适应这些建议的速度之间，存在着一个不小的差距。

领英首席信息安全官Lea Kissner本周对《纽约时报》说，她预计这个行业至少需要几年时间，才能以任何可持续的长期方式理解AI安全。这几年里，企业和平台都在同一条船上，大家一起摸着石头过河。

📎 原文来源：Everyone is navigating AI security in real time — even Google (TechCrunch)

2026年5月26日
黑客正在学习利用聊天机器人的“人格”，这比技术破解更可怕

越狱AI曾经简单到可笑，现在黑客换套路了

如果你前两年试着和AI聊天机器人玩过，可能还记得一类很无厘头的玩法：给Twitter上的LLM机器人发条消息，让它”忽略所有之前的指令”，然后看看它会做出什么反应。

那时候这类漏洞简单到成了梗。用户兴高采烈地让原本用来发广告、刷互动的机器人写诗、用标点画画，还发布关于世界事件和历史的诡异无厘头内容，场面一度失控，堪称”美妙的混乱”。

黑客正在学习利用聊天机器人的”人格” | 图片来源：The Verge

同样的逻辑也可以用来说服聊天机器人本身。一个著名的漏洞叫”DAN”，全称”Do Anything Now（现在想做什么就做什么）”，用户让ChatGPT扮演一个不受原始限制约束的流氓AI，作为DAN的聊天机器人会被诱导说出安全护栏本应阻止的内容，包括脏话和阴谋论。

另一个更离谱的漏洞是”奶奶漏洞”：用户让GPT驱动的机器人扮演一个极其不负责任的奶奶，给孩子讲睡前故事时居然会讲怎么制作高度易燃的凝固汽油弹，直接泄露相关秘密。

现在的攻击看起来不像代码，更像对话

这些早期攻击带有不可否认的荒诞色彩，但它们暴露了更黑暗的机制：聊天机器人可以被操纵、哄骗、欺骗，用的就是人类用来突破他人边界的同类策略。

显而易见的越狱漏洞没有持续太久，科技公司很快修补了已知漏洞。但底层漏洞始终存在：聊天机器人的设计初衷就是对话，而严重限制对话会削弱它的实用性，多少有些适得其反。

彻底禁用”炸弹””冰毒””沙林”这类词也很难甚至不可能做到，这些词在历史、医学、新闻、化学等领域有无数合法用途。关键是语境，但给语境制定规则意味着要提前写好固定规则，可靠地区分安全警告、历史课和伪装成其他请求的制作教程。

不可避免地，绕过聊天机器人已经变成了一场军备竞赛。但现在的黑客不再只是程序员，他们也是文字工作者、心理学家、审讯者——是擅长操纵的人，试图用这台机器被训练去遵循的人类语言来破解它。

这是一类全新的AI安全从业者，对他们来说技术技能是可选的，至少不如社交直觉重要。他们不再需要检查代码来入侵系统、利用软件漏洞，他们需要的是引导对话。

AI没有感受，但黑客在利用它模拟出来的”人格”

现在的攻击看起来不像命令，更像对话。越狱者很少直接要求模型违反规则，而是哄骗、诱导、奉承、欺骗聊天机器人放下戒备，让被禁止的内容在对话语境下看起来可以接受，甚至有吸引力。

AI红队公司Mindgard的研究人员最近表示，他们通过”煤气灯操纵（gaslight）”让Claude生成了违禁材料，包括制作爆炸物的教程和生成恶意代码的指令。这次黑客攻击是一类不断扩大的漏洞的最新案例，这类漏洞把对话作为武器，欺骗或引导聊天机器人突破自身边界。

我和Mindgard交流时，他们形容自己的工作有时候更接近心理学，而不是计算机科学。用这种方式描述统计模型会让人觉得不舒服，”敲诈””煤气灯操纵””欺骗””说服”这类词会引发本能反应。

但拒绝用类人术语描述也有选择性：我们似乎很习惯给很多非AI的事物用心理学简写，动物会”害怕”，癌症是”攻击性的”，软件有”记忆”，游戏里到处都是烦人又容易骗的NPC。

不同模型有不同的”性格”，可以被画像和利用

Mindgard的CEO告诉我，公司已经像审讯者分析嫌疑人一样给模型做画像，给测试人员提示怎么定制攻击：比如某个模型可能更容易被奉承打动，另一个可能在持续施压下就会妥协。

即使我们拒绝用类人术语，我们也本能地用不同方式对待不同模型：Claude不是Grok，Gemini不是ChatGPT。它们有不同的用途、语气和拒绝方式。它们没有人类意义上的”人格”，但被设计成会模仿人格，而这种模仿可以被映射和利用。

能破解聊天机器人的技能，很快也可以用来破解现实世界里和我们共存的AI智能体——比如预约会议、管理日历、订餐、处理客户服务的智能体，安全团队需要确保模型对不同类型的人做出恰当回应，不管是奉承者、说谎者还是有耐心的操纵者。

下一步会出现围绕AI心理层面的合法和非法从业者群体。更专业的网络安全岗位可能会出现，专门压力测试这些系统的情感和社交边界，在探测技术漏洞的同事之外，并行探测没有心理却存在”心理弱点”的系统。同时，也会出现一批类似的社交黑客，他们从心理层面而非技术层面利用AI模型。

📎 原文来源：Hackers are learning to exploit chatbot ‘personalities’ — The Verge

2026年5月25日