标签: AI监管

  • 黑客正在学习利用聊天机器人的“人格”,这比技术破解更可怕

    越狱AI曾经简单到可笑,现在黑客换套路了

    如果你前两年试着和AI聊天机器人玩过,可能还记得一类很无厘头的玩法:给Twitter上的LLM机器人发条消息,让它”忽略所有之前的指令”,然后看看它会做出什么反应。

    那时候这类漏洞简单到成了梗。用户兴高采烈地让原本用来发广告、刷互动的机器人写诗、用标点画画,还发布关于世界事件和历史的诡异无厘头内容,场面一度失控,堪称”美妙的混乱”。

    AI聊天机器人概念图
    黑客正在学习利用聊天机器人的”人格” | 图片来源:The Verge

    同样的逻辑也可以用来说服聊天机器人本身。一个著名的漏洞叫”DAN”,全称”Do Anything Now(现在想做什么就做什么)”,用户让ChatGPT扮演一个不受原始限制约束的流氓AI,作为DAN的聊天机器人会被诱导说出安全护栏本应阻止的内容,包括脏话和阴谋论。

    另一个更离谱的漏洞是”奶奶漏洞”:用户让GPT驱动的机器人扮演一个极其不负责任的奶奶,给孩子讲睡前故事时居然会讲怎么制作高度易燃的凝固汽油弹,直接泄露相关秘密。

    现在的攻击看起来不像代码,更像对话

    这些早期攻击带有不可否认的荒诞色彩,但它们暴露了更黑暗的机制:聊天机器人可以被操纵、哄骗、欺骗,用的就是人类用来突破他人边界的同类策略。

    显而易见的越狱漏洞没有持续太久,科技公司很快修补了已知漏洞。但底层漏洞始终存在:聊天机器人的设计初衷就是对话,而严重限制对话会削弱它的实用性,多少有些适得其反。

    彻底禁用”炸弹””冰毒””沙林”这类词也很难甚至不可能做到,这些词在历史、医学、新闻、化学等领域有无数合法用途。关键是语境,但给语境制定规则意味着要提前写好固定规则,可靠地区分安全警告、历史课和伪装成其他请求的制作教程。

    不可避免地,绕过聊天机器人已经变成了一场军备竞赛。但现在的黑客不再只是程序员,他们也是文字工作者、心理学家、审讯者——是擅长操纵的人,试图用这台机器被训练去遵循的人类语言来破解它。

    这是一类全新的AI安全从业者,对他们来说技术技能是可选的,至少不如社交直觉重要。他们不再需要检查代码来入侵系统、利用软件漏洞,他们需要的是引导对话。

    AI没有感受,但黑客在利用它模拟出来的”人格”

    现在的攻击看起来不像命令,更像对话。越狱者很少直接要求模型违反规则,而是哄骗、诱导、奉承、欺骗聊天机器人放下戒备,让被禁止的内容在对话语境下看起来可以接受,甚至有吸引力。

    AI红队公司Mindgard的研究人员最近表示,他们通过”煤气灯操纵(gaslight)”让Claude生成了违禁材料,包括制作爆炸物的教程和生成恶意代码的指令。这次黑客攻击是一类不断扩大的漏洞的最新案例,这类漏洞把对话作为武器,欺骗或引导聊天机器人突破自身边界。

    我和Mindgard交流时,他们形容自己的工作有时候更接近心理学,而不是计算机科学。用这种方式描述统计模型会让人觉得不舒服,”敲诈””煤气灯操纵””欺骗””说服”这类词会引发本能反应。

    但拒绝用类人术语描述也有选择性:我们似乎很习惯给很多非AI的事物用心理学简写,动物会”害怕”,癌症是”攻击性的”,软件有”记忆”,游戏里到处都是烦人又容易骗的NPC。

    不同模型有不同的”性格”,可以被画像和利用

    Mindgard的CEO告诉我,公司已经像审讯者分析嫌疑人一样给模型做画像,给测试人员提示怎么定制攻击:比如某个模型可能更容易被奉承打动,另一个可能在持续施压下就会妥协。

    即使我们拒绝用类人术语,我们也本能地用不同方式对待不同模型:Claude不是Grok,Gemini不是ChatGPT。它们有不同的用途、语气和拒绝方式。它们没有人类意义上的”人格”,但被设计成会模仿人格,而这种模仿可以被映射和利用。

    能破解聊天机器人的技能,很快也可以用来破解现实世界里和我们共存的AI智能体——比如预约会议、管理日历、订餐、处理客户服务的智能体,安全团队需要确保模型对不同类型的人做出恰当回应,不管是奉承者、说谎者还是有耐心的操纵者。


    下一步会出现围绕AI心理层面的合法和非法从业者群体。更专业的网络安全岗位可能会出现,专门压力测试这些系统的情感和社交边界,在探测技术漏洞的同事之外,并行探测没有心理却存在”心理弱点”的系统。同时,也会出现一批类似的社交黑客,他们从心理层面而非技术层面利用AI模型。

  • 发改委出手了:人工智能立法研究启动,”人工智能+”正在加速落地

    发改委出手了:人工智能立法研究启动,”人工智能+”正在加速落地

    5月22日,国家发改委召开5月份新闻发布会,新闻发言人李超透露了一个重要信号:官方正在开展人工智能立法研究,要强化安全治理能力建设,让人工智能朝着有益、安全、公平的方向发展。

    这话听起来有点宏观,但实际影响会很深远。想想看,AI现在到处都是,从手机里的语音助手到医院的辅助诊断,从自动驾驶到金融风控,到处都在用。但规则跟不上技术,就会出问题——数据泄露、算法歧视、AI生成内容乱七八糟……所以立法不是”要不要”的问题,是”什么时候出台、怎么制定才合理”的问题。

    “这也是中国人工智能发展的一大突出特征——在保持快速发展的同时,确保自主可控、向善发展、行稳致远,让全体人民共享人工智能发展成果。”

    “人工智能+”已经在路上

    发布会上还介绍了”人工智能+”行动的进展。目前官方已经出台了制造、医疗、能源等十多个行业的专项政策文件,政策体系正在不断完善。

    更有意思的是,国家发改委会同有关部门在制造、医疗、交通等领域布局了一批国家人工智能应用中试基地。这些基地是干嘛的?简单说,就是让AI技术从实验室走到试验场、从工厂走到市场的”中转站”,提供算力、数据、场景这些关键要素支撑,大幅缩短转化周期、降低落地成本。

    国家发改委新闻发布会
    国家发改委5月份新闻发布会现场(图片来源:中国新闻网)

    已经有落地案例了

    举个具体的例子:医疗领域的中试基地孵化出了一款叫“蚂蚁阿福”的AI应用,可以提供就医陪诊、辅助诊断、家医随访等智能服务。这款应用已经在十多个省市的医疗机构落地,让更多居民享受到智能、优质、便利的健康体验。

    你看,AI不是只在大厂实验室里跑模型、刷榜单,它真的在走进医院、走进社区,开始影响普通人的生活。这才是”人工智能+”想要达到的效果。


    接下来还要做什么?

    李超还透露了两个重要计划:

    • 出台配套文件:官方正在谋划出台加快”人工智能+”落地的配套文件,进一步加大要素保障。
    • 打造标杆应用:持续推动央国企开放高价值应用场景,面向各行业领域和各地方打造人工智能标杆应用,加快引导人工智能融入生产、经营、管理等各方面各环节。

    这意味着什么?意味着接下来会有更多实际的应用场景被开放出来,AI技术会更快地渗透到各行各业。对于做AI应用的创业公司来说,这是个好消息——有政策支持、有场景开放、有要素保障,落地会更容易。

    回过头看,人工智能立法研究、”人工智能+”行动、应用中试基地、配套文件……这一套组合拳打下来,中国AI的发展路径已经很清晰了:既要快,也要稳;既要创新,也要安全;既要技术突破,也要普惠共享。

  • 五大前沿AI实验室被纳入政府监管:模型发布前要先过这一关

    美国商务部下属的AI安全与基础设施局(CAISI)近期悄悄干了一件事——和OpenAI、Anthropic、Google DeepMind、微软、xAI这五家前沿AI实验室全部签署了预部署评估协议。意思是,这些实验室的主流模型在正式发布前,得先过政府这一关。

    不是自愿,是强制

    这份协议已经最终敲定,具有约束力。覆盖范围是五家实验室计划在美国境内发布的所有主流前沿模型。评估由CAISI主导,核心目标是排查模型的安全风险和合规隐患,防止模型发布后引发监管暴露问题。

    具体评估指标和详细内容目前没有公开,但可以参考英国AI安全研究所最新发布的红队测试指南——主要聚焦模型能力边界和潜在滥用风险。这个变化意味着,从模型官宣到API正式对外开放,中间会多一段政府评估的时间窗口。

    这标志着美国AI产业正式从”快速行动、打破常规”的野蛮生长阶段,转向受监管的基础设施类产业的监管逻辑——是行业结构性的监管转向。

    全球监管协同正在形成

    欧盟方面也在跟进。目前欧盟正与Anthropic洽谈Mythos模型的政府访问权限,但尚未达成与美国同等层级的协议。英国AI安全研究所则在Google I/O大会开幕前更新了红队测试指南,表明国际层面在协同关注前沿模型能力监管。

    对企业用户来说,这套新流程相当于给前沿模型加了一层官方信任背书——所有模型在发布前都经过政府评估,理论上能降低企业部署后遭遇监管处罚或合规风险的可能性。

    对行业意味着什么

    短期来看,模型发布节奏会受影响。实验室需要预留政府评估的时间,从完成训练到正式上线的时间窗口会被拉长。对于那些靠”抢先发布”来占据市场注意力的实验室来说,这不是一个好消息。

    但换个角度看,政府背书也能成为竞争优势。Anthropic在企业市场的迅猛增长,部分原因就是它的模型被认为”更安全、更合规”。当监管成为行业标准的一部分,跑赢合规反而可能是最好的市场策略。

    xAI作为名单里最新的成员,它的加入说明监管网已经覆盖了所有主流玩家,不管创始人埃隆·马斯克和华盛顿的关系如何,规则面前暂时人人平等。


  • 欧盟AI法案松口了:合规截止日期推迟,中型企业也能喘口气

    5月7日,欧盟理事会和欧洲议会谈判代表就AI法案简化方案达成临时协议,这是继2024年AI法案正式生效后,欧盟首次对规则进行大规模”松绑”。距离原定8月2日的高风险AI系统合规截止日只剩三个月,很多企业还没摸清门道,欧盟干脆把期限往后推了。

    宽松在哪里

    最直观的变化是截止日期——独立类高风险AI系统的合规期限从今年8月推到了2027年12月2日,嵌入医疗设备等受监管产品的高风险AI更是延至2028年8月2日。中间还有4个月的”水印义务宽限期”,今年8月2日前投放市场的生成式AI,可以等到12月2日再完成水印标注合规。

    受监管范围也在收窄。工业机械内置的AI系统,如果已经受欧盟《机械法规》覆盖,直接被剔除出AI法案监管范围。医疗设备、玩具、电梯等产品中内置的AI”安全组件”,只需要遵守对应行业的安全法规,不用再重复履行AI法案的义务。

    “安全组件”的定义被收窄了——只有当AI功能失效会直接造成健康或安全风险时,才会被认定为高风险AI的”安全组件”。那些只是用来辅助用户、优化性能的AI功能,不会再被自动划为高风险范畴。

    中小企业也受惠

    原来只有小微企业(SME)才能享受的简化合规政策,现在扩展到了员工不超过750人、年营收不超过1.5亿欧元的中型企业。这意味着一大批成长型AI公司可以享用简化合规指南、更低的罚款标准,以及监管沙盒的准入资格。

    还有一个挺有意思的放宽:企业现在可以使用GDPR定义下的特殊类别个人数据(健康信息、生物特征数据、种族、性取向等)来检测和缓解AI模型的偏见,不需要再走此前那套严苛的特殊数据审批流程。

    红线还在

    放宽不等于放任。”nudifier”类AI应用——也就是用来生成未经同意的亲密内容、儿童性虐待材料的系统——被新增为禁止项,今年12月2日起生效,违反禁止性规定的最高罚款是3500万欧元,或全球年营业额的7%,取高者。

    透明度义务(聊天机器人披露、深伪内容水印等)依然在8月2日生效,只是水印部分给了4个月宽限。罚款标准是不超过1500万欧元或全球年营业额的3%。


    企业该怎么应对

    宽限期多出来的这几个月的用处,是让企业把合规框架搭好,而不是继续拖。欧盟委员会到现在还没发布高风险AI系统的协调标准,等标准出来的时候,留给企业调整的时间可能还是不够。提前把风险分类、数据治理、技术文档这些基础工作做扎实,比临时抱佛脚要靠谱得多。

    还有一个现实问题:欧盟数据保护机构已经在AI领域开展GDPR执法了,已经有企业因为违规被罚款、相关AI应用被禁用。AI法案和GDPR是两套并行规则,合规的时候不能只盯着一个看。