YOHO AI

标签： AI监管

黑客正在学习利用聊天机器人的“人格”，这比技术破解更可怕

越狱AI曾经简单到可笑，现在黑客换套路了

如果你前两年试着和AI聊天机器人玩过，可能还记得一类很无厘头的玩法：给Twitter上的LLM机器人发条消息，让它”忽略所有之前的指令”，然后看看它会做出什么反应。

那时候这类漏洞简单到成了梗。用户兴高采烈地让原本用来发广告、刷互动的机器人写诗、用标点画画，还发布关于世界事件和历史的诡异无厘头内容，场面一度失控，堪称”美妙的混乱”。

黑客正在学习利用聊天机器人的”人格” | 图片来源：The Verge

同样的逻辑也可以用来说服聊天机器人本身。一个著名的漏洞叫”DAN”，全称”Do Anything Now（现在想做什么就做什么）”，用户让ChatGPT扮演一个不受原始限制约束的流氓AI，作为DAN的聊天机器人会被诱导说出安全护栏本应阻止的内容，包括脏话和阴谋论。

另一个更离谱的漏洞是”奶奶漏洞”：用户让GPT驱动的机器人扮演一个极其不负责任的奶奶，给孩子讲睡前故事时居然会讲怎么制作高度易燃的凝固汽油弹，直接泄露相关秘密。

现在的攻击看起来不像代码，更像对话

这些早期攻击带有不可否认的荒诞色彩，但它们暴露了更黑暗的机制：聊天机器人可以被操纵、哄骗、欺骗，用的就是人类用来突破他人边界的同类策略。

显而易见的越狱漏洞没有持续太久，科技公司很快修补了已知漏洞。但底层漏洞始终存在：聊天机器人的设计初衷就是对话，而严重限制对话会削弱它的实用性，多少有些适得其反。

彻底禁用”炸弹””冰毒””沙林”这类词也很难甚至不可能做到，这些词在历史、医学、新闻、化学等领域有无数合法用途。关键是语境，但给语境制定规则意味着要提前写好固定规则，可靠地区分安全警告、历史课和伪装成其他请求的制作教程。

不可避免地，绕过聊天机器人已经变成了一场军备竞赛。但现在的黑客不再只是程序员，他们也是文字工作者、心理学家、审讯者——是擅长操纵的人，试图用这台机器被训练去遵循的人类语言来破解它。

这是一类全新的AI安全从业者，对他们来说技术技能是可选的，至少不如社交直觉重要。他们不再需要检查代码来入侵系统、利用软件漏洞，他们需要的是引导对话。

AI没有感受，但黑客在利用它模拟出来的”人格”

现在的攻击看起来不像命令，更像对话。越狱者很少直接要求模型违反规则，而是哄骗、诱导、奉承、欺骗聊天机器人放下戒备，让被禁止的内容在对话语境下看起来可以接受，甚至有吸引力。

AI红队公司Mindgard的研究人员最近表示，他们通过”煤气灯操纵（gaslight）”让Claude生成了违禁材料，包括制作爆炸物的教程和生成恶意代码的指令。这次黑客攻击是一类不断扩大的漏洞的最新案例，这类漏洞把对话作为武器，欺骗或引导聊天机器人突破自身边界。

我和Mindgard交流时，他们形容自己的工作有时候更接近心理学，而不是计算机科学。用这种方式描述统计模型会让人觉得不舒服，”敲诈””煤气灯操纵””欺骗””说服”这类词会引发本能反应。

但拒绝用类人术语描述也有选择性：我们似乎很习惯给很多非AI的事物用心理学简写，动物会”害怕”，癌症是”攻击性的”，软件有”记忆”，游戏里到处都是烦人又容易骗的NPC。

不同模型有不同的”性格”，可以被画像和利用

Mindgard的CEO告诉我，公司已经像审讯者分析嫌疑人一样给模型做画像，给测试人员提示怎么定制攻击：比如某个模型可能更容易被奉承打动，另一个可能在持续施压下就会妥协。

即使我们拒绝用类人术语，我们也本能地用不同方式对待不同模型：Claude不是Grok，Gemini不是ChatGPT。它们有不同的用途、语气和拒绝方式。它们没有人类意义上的”人格”，但被设计成会模仿人格，而这种模仿可以被映射和利用。

能破解聊天机器人的技能，很快也可以用来破解现实世界里和我们共存的AI智能体——比如预约会议、管理日历、订餐、处理客户服务的智能体，安全团队需要确保模型对不同类型的人做出恰当回应，不管是奉承者、说谎者还是有耐心的操纵者。

下一步会出现围绕AI心理层面的合法和非法从业者群体。更专业的网络安全岗位可能会出现，专门压力测试这些系统的情感和社交边界，在探测技术漏洞的同事之外，并行探测没有心理却存在”心理弱点”的系统。同时，也会出现一批类似的社交黑客，他们从心理层面而非技术层面利用AI模型。

📎 原文来源：Hackers are learning to exploit chatbot ‘personalities’ — The Verge

2026年5月25日
发改委出手了：人工智能立法研究启动，”人工智能+”正在加速落地
发改委出手了：人工智能立法研究启动，”人工智能+”正在加速落地

5月22日，国家发改委召开5月份新闻发布会，新闻发言人李超透露了一个重要信号：官方正在开展人工智能立法研究，要强化安全治理能力建设，让人工智能朝着有益、安全、公平的方向发展。

这话听起来有点宏观，但实际影响会很深远。想想看，AI现在到处都是，从手机里的语音助手到医院的辅助诊断，从自动驾驶到金融风控，到处都在用。但规则跟不上技术，就会出问题——数据泄露、算法歧视、AI生成内容乱七八糟……所以立法不是”要不要”的问题，是”什么时候出台、怎么制定才合理”的问题。

“这也是中国人工智能发展的一大突出特征——在保持快速发展的同时，确保自主可控、向善发展、行稳致远，让全体人民共享人工智能发展成果。”

“人工智能+”已经在路上

发布会上还介绍了”人工智能+”行动的进展。目前官方已经出台了制造、医疗、能源等十多个行业的专项政策文件，政策体系正在不断完善。

更有意思的是，国家发改委会同有关部门在制造、医疗、交通等领域布局了一批国家人工智能应用中试基地。这些基地是干嘛的？简单说，就是让AI技术从实验室走到试验场、从工厂走到市场的”中转站”，提供算力、数据、场景这些关键要素支撑，大幅缩短转化周期、降低落地成本。

国家发改委5月份新闻发布会现场（图片来源：中国新闻网）

已经有落地案例了

举个具体的例子：医疗领域的中试基地孵化出了一款叫“蚂蚁阿福”的AI应用，可以提供就医陪诊、辅助诊断、家医随访等智能服务。这款应用已经在十多个省市的医疗机构落地，让更多居民享受到智能、优质、便利的健康体验。

你看，AI不是只在大厂实验室里跑模型、刷榜单，它真的在走进医院、走进社区，开始影响普通人的生活。这才是”人工智能+”想要达到的效果。

接下来还要做什么？

李超还透露了两个重要计划：
- 出台配套文件：官方正在谋划出台加快”人工智能+”落地的配套文件，进一步加大要素保障。
- 打造标杆应用：持续推动央国企开放高价值应用场景，面向各行业领域和各地方打造人工智能标杆应用，加快引导人工智能融入生产、经营、管理等各方面各环节。
这意味着什么？意味着接下来会有更多实际的应用场景被开放出来，AI技术会更快地渗透到各行各业。对于做AI应用的创业公司来说，这是个好消息——有政策支持、有场景开放、有要素保障，落地会更容易。

回过头看，人工智能立法研究、”人工智能+”行动、应用中试基地、配套文件……这一套组合拳打下来，中国AI的发展路径已经很清晰了：既要快，也要稳；既要创新，也要安全；既要技术突破，也要普惠共享。

📎 原文来源：中国新闻网 – 国家发改委：正开展人工智能立法研究
2026年5月22日
五大前沿AI实验室被纳入政府监管：模型发布前要先过这一关

美国商务部下属的AI安全与基础设施局（CAISI）近期悄悄干了一件事——和OpenAI、Anthropic、Google DeepMind、微软、xAI这五家前沿AI实验室全部签署了预部署评估协议。意思是，这些实验室的主流模型在正式发布前，得先过政府这一关。

不是自愿，是强制

这份协议已经最终敲定，具有约束力。覆盖范围是五家实验室计划在美国境内发布的所有主流前沿模型。评估由CAISI主导，核心目标是排查模型的安全风险和合规隐患，防止模型发布后引发监管暴露问题。

具体评估指标和详细内容目前没有公开，但可以参考英国AI安全研究所最新发布的红队测试指南——主要聚焦模型能力边界和潜在滥用风险。这个变化意味着，从模型官宣到API正式对外开放，中间会多一段政府评估的时间窗口。

这标志着美国AI产业正式从”快速行动、打破常规”的野蛮生长阶段，转向受监管的基础设施类产业的监管逻辑——是行业结构性的监管转向。

全球监管协同正在形成

欧盟方面也在跟进。目前欧盟正与Anthropic洽谈Mythos模型的政府访问权限，但尚未达成与美国同等层级的协议。英国AI安全研究所则在Google I/O大会开幕前更新了红队测试指南，表明国际层面在协同关注前沿模型能力监管。

对企业用户来说，这套新流程相当于给前沿模型加了一层官方信任背书——所有模型在发布前都经过政府评估，理论上能降低企业部署后遭遇监管处罚或合规风险的可能性。

对行业意味着什么

短期来看，模型发布节奏会受影响。实验室需要预留政府评估的时间，从完成训练到正式上线的时间窗口会被拉长。对于那些靠”抢先发布”来占据市场注意力的实验室来说，这不是一个好消息。

但换个角度看，政府背书也能成为竞争优势。Anthropic在企业市场的迅猛增长，部分原因就是它的模型被认为”更安全、更合规”。当监管成为行业标准的一部分，跑赢合规反而可能是最好的市场策略。

xAI作为名单里最新的成员，它的加入说明监管网已经覆盖了所有主流玩家，不管创始人埃隆·马斯克和华盛顿的关系如何，规则面前暂时人人平等。

📎 原文来源：AI News Today – May 18, 2026 | Build Fast with AI

2026年5月18日
欧盟AI法案松口了：合规截止日期推迟，中型企业也能喘口气

5月7日，欧盟理事会和欧洲议会谈判代表就AI法案简化方案达成临时协议，这是继2024年AI法案正式生效后，欧盟首次对规则进行大规模”松绑”。距离原定8月2日的高风险AI系统合规截止日只剩三个月，很多企业还没摸清门道，欧盟干脆把期限往后推了。

宽松在哪里

最直观的变化是截止日期——独立类高风险AI系统的合规期限从今年8月推到了2027年12月2日，嵌入医疗设备等受监管产品的高风险AI更是延至2028年8月2日。中间还有4个月的”水印义务宽限期”，今年8月2日前投放市场的生成式AI，可以等到12月2日再完成水印标注合规。

受监管范围也在收窄。工业机械内置的AI系统，如果已经受欧盟《机械法规》覆盖，直接被剔除出AI法案监管范围。医疗设备、玩具、电梯等产品中内置的AI”安全组件”，只需要遵守对应行业的安全法规，不用再重复履行AI法案的义务。

“安全组件”的定义被收窄了——只有当AI功能失效会直接造成健康或安全风险时，才会被认定为高风险AI的”安全组件”。那些只是用来辅助用户、优化性能的AI功能，不会再被自动划为高风险范畴。

中小企业也受惠

原来只有小微企业（SME）才能享受的简化合规政策，现在扩展到了员工不超过750人、年营收不超过1.5亿欧元的中型企业。这意味着一大批成长型AI公司可以享用简化合规指南、更低的罚款标准，以及监管沙盒的准入资格。

还有一个挺有意思的放宽：企业现在可以使用GDPR定义下的特殊类别个人数据（健康信息、生物特征数据、种族、性取向等）来检测和缓解AI模型的偏见，不需要再走此前那套严苛的特殊数据审批流程。

红线还在

放宽不等于放任。”nudifier”类AI应用——也就是用来生成未经同意的亲密内容、儿童性虐待材料的系统——被新增为禁止项，今年12月2日起生效，违反禁止性规定的最高罚款是3500万欧元，或全球年营业额的7%，取高者。

透明度义务（聊天机器人披露、深伪内容水印等）依然在8月2日生效，只是水印部分给了4个月宽限。罚款标准是不超过1500万欧元或全球年营业额的3%。

企业该怎么应对

宽限期多出来的这几个月的用处，是让企业把合规框架搭好，而不是继续拖。欧盟委员会到现在还没发布高风险AI系统的协调标准，等标准出来的时候，留给企业调整的时间可能还是不够。提前把风险分类、数据治理、技术文档这些基础工作做扎实，比临时抱佛脚要靠谱得多。

还有一个现实问题：欧盟数据保护机构已经在AI领域开展GDPR执法了，已经有企业因为违规被罚款、相关AI应用被禁用。AI法案和GDPR是两套并行规则，合规的时候不能只盯着一个看。

📎 原文来源：Latham & Watkins：EU AI Act Update | 欧盟理事会官方新闻稿

2026年5月18日

标签： AI监管

黑客正在学习利用聊天机器人的“人格”，这比技术破解更可怕

越狱AI曾经简单到可笑，现在黑客换套路了

现在的攻击看起来不像代码，更像对话

AI没有感受，但黑客在利用它模拟出来的”人格”

不同模型有不同的”性格”，可以被画像和利用

发改委出手了：人工智能立法研究启动，”人工智能+”正在加速落地

发改委出手了：人工智能立法研究启动，”人工智能+”正在加速落地

“人工智能+”已经在路上

已经有落地案例了

接下来还要做什么？

五大前沿AI实验室被纳入政府监管：模型发布前要先过这一关

不是自愿，是强制

全球监管协同正在形成

对行业意味着什么

欧盟AI法案松口了：合规截止日期推迟，中型企业也能喘口气

宽松在哪里

中小企业也受惠

红线还在

企业该怎么应对