标签: AI治理

  • 特朗普签了份AI行政令:模型发布前可自愿接受政府审查

    美国总统特朗普本周二签了一份行政令,要求AI公司在模型正式发布前,可以自愿把模型提交给联邦政府审查。说自愿,是因为企业可以自己决定交不交,但一旦交了,政府会评估模型的高级网络能力,企业这边也能拿到相应的保密保护。

    之前说不监管,现在为什么改主意了

    特朗普对AI监管的态度转变挺有意思。他之前一直主张不让监管扼杀创新,甚至一度推迟签署AI相关行政令,理由是怕影响美国跟中国的AI竞争。结果这次的行政令写得挺明确:AI的新能力确实伴随安全风险,政府不能装看不见。

    触发这次转向的直接原因,很可能是Anthropic在今年4月有限度发布的Mythos模型。Anthropic自己说,这个模型发现了数千个高危漏洞,主流操作系统和网页浏览器全都中招。这话一出,华盛顿那边坐不住了。

    Anthropic的Mythos模型在测试中发现:所有主流操作系统和网页浏览器都存在高危漏洞——这话是Anthropic自己说的,不是政府说的。

    更有意思的是,Anthropic之前跟五角大楼因为AI用于自主致命武器和大规模监控的问题闹过法律纠纷。这次Mythos一发布,双方关系反而出现了缓和迹象。有时候,一个技术演示比十轮谈判都管用。

    行政令到底说了什么

    • 企业可以自愿提交模型,提交后最多30天内完成审查
    • 审查聚焦模型的高级网络能力,不是全面安全审计
    • 提交企业获得保密保护,政府不会随意公开模型细节
    • 联邦政府同步强化针对AI攻击的网络防御,重点保护关键基础设施
    • 行政令明确:这不是强制许可,也不是发布前审批

    这份行政令其实有个前传。去年5月,谷歌、微软、xAI就同意让美国商务部下属的AI标准与创新中心(CAISI)在模型发布前做审查。OpenAI和Anthropic更早,2024年拜登还在任的时候就签了类似协议。所以特朗普这次,某种程度上是把拜登时期的实际做法给正式化了,只是换了个”自愿”的名义。

    行业买账吗

    出乎意料的是,这份行政令居然获得了AI安全倡导团体的认可。美国负责任创新组织的主席布拉德·卡森发表声明说,”白宫正式接受了Mythos传递的信号”。安全AI联盟的CEO也表示,很高兴看到特朗普政府认真对待模型风险。

    但这帮人并不满足于自愿框架。他们还在敦促国会立法,把这些保护措施变成强制要求。自愿这个东西,换了届政府就可能不自愿了,他们心里清楚。

    Trump AI executive order signing
    特朗普签署AI行政令(图片来源:The Verge)
  • 特朗普签了AI行政令,模型发布前要过政府这一关

    美国总统唐纳德·特朗普在周二签署了一项关于人工智能的行政令,要为AI公司搭一个”自愿框架”——企业可以在前沿模型公开发布之前,先拿给政府看看。官方说法是”促进安全创新,加强关键基础设施网络安全”,听起来挺温和。

    白宫在行政令里明确说了一句话:这”不应被理解为强制许可或者预先审批”。也就是说,企业不配合也不会被罚,完全自愿。

    自愿审查,但谁自愿谁不吃亏

    这个框架最微妙的地方在于”自愿”二字。行政令指示多个联邦机构制定一套流程,在AI模型公开发布之前”评估其高级网络能力”。企业可以自行决定是否把模型交给政府审查,但如果交了,就能获得相应的保密保护——换句话说,不交的企业就得自己承担所有潜在的安全责任。

    实际上,这种”自愿”背后有很现实的考量。上个月,谷歌、微软和xAI已经同意接受商务部下属AI标准与创新中心(CAISI)的发布前审查。先交的企业能拿到政府背书,后交的就可能被视为”不安全”。


    特朗普的态度为什么变了

    这事其实有个背景。特朗普之前曾经推迟签署一项AI行政令,原因是他担心那会”阻碍”美国跟中国的竞争。《纽约时报》的报道说,最初版本的草案允许AI公司在发布前14到90天自愿共享模型,而最终版本把时间压缩到了最多30天。

    更关键的是,此前在特朗普政府中担任白宫AI与加密货币主管的大卫·萨克斯(David Sacks)任内,政府对AI安全问题一直是淡化处理的,基本采取了不干预态度。这次签署行政令,说明白宫的态度在发生微妙转变。

    特朗普签署行政令
    特朗普签署AI行政令,建立模型发布前自愿审查框架(图源:The Verge)

    Anthropic的Mythos模型是关键转折点

    这次态度转变的一个直接诱因,是Anthropic在今年4月有限推出的Mythos模型。Anthropic自己说,这个模型发现了”数千个高危漏洞,包括所有主流操作系统和网页浏览器中都存在的一些漏洞”。

    在此之前,Anthropic曾经因为AI被用于自主致命武器和大规模监控的问题,跟五角大楼闹过法律纠纷。Mythos的出现,似乎为缓和Anthropic跟政府之间的紧张关系创造了一个契机。截至目前,这项行政令甚至获得了一些通常反对限制AI法律的团体的赞扬。

    美国负责任创新组织主席布拉德·卡森(Brad Carson)在声明中说:”白宫正式接受了Mythos模型的影响。”安全AI联盟首席执行官布伦丹·斯坦豪瑟(Brendan Steinhauser)则表示,他的组织”很高兴看到特朗普政府认真对待这些模型的风险”。


    接下来会怎样

    卡森和斯坦豪瑟都在呼吁国会立法,把类似的保护措施变成法律,而不只是靠行政令。毕竟行政令的效力是有限的,下一任总统完全可以把它撤销掉。

    对AI公司来说,这道选择题现在摆在了桌面上:主动配合政府审查,换取某种程度的背书和保护;或者坚持不交,但要面对市场和监管的不确定性。目前看起来,大公司已经用脚投了票。

    📎 原文来源:The Verge — Lauren Feiner
  • 全球顶尖AI科学家联合签署《伦敦宣言》,警告AI网络攻击一年之内杀到

    5月底,在英国皇家学会举办的人工智能安全国际对话(IDAIS)第五届会议闭幕式上,图灵奖得主姚期智、Yoshua Bengio,清华大学智能产业研究院院长张亚勤,加州大学伯克利分校教授Stuart Russell等全球顶尖AI科学家,共同签署了一份《IDAIS伦敦宣言》。

    技术能力有限的非国家行为体,将在一年内掌握部分国家级网络攻击手段。全球社会目前远未做好应对这一紧迫威胁的准备。

    这不是第一次,但这次份量不一样

    IDAIS这个会议系列,2023年由姚期智、Yoshua Bengio、张亚勤、Stuart Russell四个人联合发起,已经跑了五届:牛津、北京、威尼斯、上海,这一届到了伦敦。

    为什么这份宣言值得认真看?因为签字的人不只是学者,他们本身就是各国AI安全政策的顶层智囊。姚期智主导中国AI治理顶层设计,Yoshua Bengio起草过联合国AI报告,Stuart Russell的著作《Human Compatible》几乎是AI安全领域的必读书。这帮人联合发声,等于给各国政府递了一张时间表。


    宣言到底说了什么

    整份宣言的核心逻辑很直接:AI能力正在让”国家级攻击能力”向下溢出,从国家行为体流向非国家行为体——恐怖组织、黑客团体,甚至个人。

    具体说了两个最紧迫的风险领域:

    • 网络攻击:前沿AI已经能在数小时内完成专业团队需要数周的攻击性操作。关停医院、供水系统、电网、金融市场的攻击工具,正在落入远超以往的人群手中。
    • 生物滥用:AI在病原体设计相关任务上已经超越博士级专家。能设计比自然界更危险的人造病原体的能力,正在向非专业人员扩散。这不只是理论风险——宣言明确说”可能在未来造成大规模伤亡”。

    宣言还提了一个更深层的问题:逐步走向自主化的AI系统,本身就可能失控。这不是科幻,是工程现实。


    各国政府现在该做什么

    宣言给出了具体措施清单,不是泛泛而谈。针对网络攻击,优先级最高的几件事:

    • 保护关键基础设施——电网、医院、供水系统,这些是第一批会被打的目标
    • 建立前沿AI系统网络攻击能力评测体系——现在连”多强才算危险”都没有统一标准
    • 部署前强制测试——对具备高级网络能力的模型,不能先发布再治理
    • 访问控制——不是所有人都能调用最强模型,需要身份验证
    • 跨国信息共享——网络威胁指标需要像金融制裁名单一样跨国流通

    生物领域同理,但多了一层:核酸合成筛查。也就是说,以后买合成DNA,供应商要筛查序列是否与危险病原体匹配。这已经在部分国家推进,但远未形成全球标准。


    中国和美国被点名了

    宣言有一句话很克制但很明确:”主要人工智能司法管辖区在协调方面负有特殊责任。这尤其包括美国和中国。”

    这是一个现实判断,不是政治表态。全球最强的大模型公司和最强的算力都在这两个国家手里,没有中美协同,任何AI安全协议都是空话。但中美同时在AI领域激烈竞争,协同治理怎么落地,这是下一个大问题。

    宣言也提到了一个历史类比:切尔诺贝利事故之后,全球民用核能发展被阴影笼罩了数十年。AI如果出一次大规模安全事故,公众信任崩塌的后果,可能比任何技术监管都更致命。

  • 全球顶尖科学家签署《IDAIS伦敦宣言》,AI安全威胁已近在眼前

    AI 安全,这次是顶尖科学家自己站出来了

    四月十七日到十九日,四个图灵奖得主凑在一起,在英国皇家学会开了三天会。这件事本身就不太寻常——Yoshua Bengio、姚期智、Stuart Russell、张亚勤,这四个名字任何一个单拎出来都够开一场主旨演讲,现在他们坐同一张桌子旁边,讨论的是同一件事:人工智能驱动的攻击行为,社会有没有准备好。

    这场活动是”人工智能安全国际对话”(IDAIS)的第五场。这个机制是 2023 年成立的,之前走过了牛津、北京、威尼斯、上海,这一站放在伦敦,本身就有信号意义——英国在 AI 安全治理上一直想当”中间人”角色,既不完全跟美国走,也不站中国这边。

    按照当前的技术演进速度,资源极为有限的非国家行为体——从有组织团体到独狼式个人——有望在一年内掌握部分国家级网络攻击手段。

    声明里写了什么,为什么现在发

    这份在伦敦签署的共识声明,核心警告可以浓缩成两句话:AI 正在让”搞破坏”的门槛降得比以前低太多,而全球社会还没准备好应对这个变化。

    声明具体点了两大风险领域。第一个是 AI 赋能的网络攻击。前沿 AI 系统现在已经能在数小时内完成专家团队需要耗费数周才能完成的编程工作,包括发现并利用主流操作系统和浏览器的漏洞。曾经只有资源充足的国家行为体才能搞定的复杂攻击,现在正在以远超以往的速度落入远为广泛的人群手中。

    第二个风险领域是生物滥用。前沿 AI 系统在与病原体设计相关的任务上已经超越博士级专家,使得较低层级的生物能力逐步进入非专业人士的可及范围。声明特别提到:能规划并协调多步骤实验室任务、还能协助构建新型专用生物 AI 模型的智能体,会进一步放大这个风险。

    两大风险领域,声明给出了哪些应对方向

    针对网络攻击风险,声明提出了几个优先事项:保护关键基础设施、建设对前沿 AI 系统网络攻击能力的评测能力、要求开展部署前测试并在必要时延迟更广泛的开放、对具备高级网络能力的前沿 AI 系统实施访问控制、建立信息共享与漏洞披露机制。

    针对生物滥用风险,声明同样给出了优先事项:强化 AI 防护措施以应对高危生物滥用、对前沿闭源模型采取拒答训练和可信访问控制、对前沿开放权重模型开展预训练数据过滤、建设对前沿 AI 系统生物能力提升的评测能力、在核酸合成筛查方面开展国际协调。

    这些措施听起来都很”应该”,但声明本身也坦承:目前的防护手段”远远不够”,基础性的技术与社会防御体系”仍处于萌芽阶段”,且在各司法管辖区之间部署极不均衡。

    中国和美国,都被点名了

    声明有一段话值得单独拎出来说:”主要人工智能司法管辖在协调方面负有特殊责任。这尤其包括美国和中国,以及其他在人工智能开发、部署和评估方面具有重要能力的司法管辖区。”

    这是一份国际科学声明直接点名中美两国在 AI 安全治理上的特殊责任。过去类似声明往往泛泛而谈”国际社会应当……”,这次写得相当具体。

    Yoshua Bengio 一直是 AI 安全领域最敢说的顶尖科学家之一。他牵头起草的《国际 AI 安全报告》在 2025 年发布,当时就有不少政府官员觉得”写得过于直白了”。这次 IDAIS 伦敦宣言的措辞同样相当直接,没有太多外交辞令。

    声明最后还有一段类比,值得所有 AI 从业者认真读一读:”一场严重的人工智能赋能灾难不仅会造成巨大的直接危害,更会摧毁公众对人工智能系统的信任,并使人工智能本可带来的重大社会效益付诸东流。切尔诺贝利事故重创了全球核工业,至今仍让民用核能蒙上阴影,尽管现代反应堆设计已安全得多。”

    把 AI 安全风险和切尔诺贝利相提并论——这份声明的分量,可能比很多人第一眼看到的要重得多。


  • 教皇良十四世首发AI通谕:技术从来不是中立的,谁在定义AI规则?

    2026年5月15日,教皇良十四世(Pope Leo XIV)发布了他就任以来的首份通谕《Magnifica Humanitas》,副标题是”在人工智能时代守护人性尊严”。这是天主教会历史上第一份专门讨论人工智能的社会通谕,全文用拉丁文写成,同时提供多语言译本。

    这份文件不是技术文档,也不是AI监管草案。它问的是一个更根本的问题:当算法开始替人类做决定,当机器能生成以假乱真的内容,当自动化系统接管越来越多的工作——人,还剩下什么不可替代的价值?

    “技术从来不是中立的。它承载着设计者、资助者、监管者的价值观和利益取向。”——《Magnifica Humanitas》第二章

    一份”10条核心立场”的AI伦理纲领

    通谕没有给出技术路线图,而是列出了10项核心立场,可以看作是梵蒂冈版的”AI原则宣言”:

    • 人性的本体论优先:人的尊严来自其存在本身,不取决于任何能力、产出或社会地位。AI可以模拟智能,但永远无法拥有人的尊严。
    • 技术非中立性:AI系统反映其开发者、资助者和监管者的价值取向。不能把技术决策伪装成”纯技术问题”。
    • 去人性化风险:不受约束的AI发展有可能把人简化为数据点,剥离掉关系中诞生的意义和精神维度。
    • 治理必须透明且可参与:AI治理不能由科技巨头单方面决定,受影响的社区必须有实质参与权,包括算法透明、数据公平获取和申诉渠道。
    • 真理作为公共品:AI驱动的虚假信息、算法对集体想象的操纵、共享真理的侵蚀,是对民主和社会凝聚力的威胁。
    • 劳动尊严:AI自动化不能只算效率账,必须保护劳动者获得公平报酬、参与经济生活、免于不稳定和被剥削的权利。
    • 自由防御:AI赋能的监控、行为操纵和新型数字依赖,是现代形式的奴役,必须主动抵制。
    • 武器化红线:将AI整合进自主武器系统和数字战争工具,对人类生命和全球和平构成严重威胁。
    • 全球公平:AI的益处必须面向全人类,不能制造新的数字鸿沟,把 marginalized 社区和发展中国家排除在技术进步之外。
    • 信徒的召唤:基督徒和所有善意人士被号召参与AI治理和技术发展,做”共融的建设者”,确保AI服务于人的整体发展而非技术统治。

    “巴别塔”还是”耶路撒冷”?

    通谕用了一个很有张力的比喻:人类在今天面对的根本选择,不是在”要”还是”不要”技术之间做决定,而是在”建造巴别塔”和”重建耶路撒冷”之间做决定。

    巴别塔代表的是:利润崇拜牺牲弱者、同质化抹杀差异、假装有一种单一语言(哪怕是数字语言)能把一切——包括人的奥秘——都翻译成数据和性能指标。通谕警告,这种”技术统治范式”的风险,是建造一个把上帝排除在外、把他人当作手段而非目的的未来。

    “真正的进步永远来自一颗向他人开放的心、一个愿意倾听的理智,以及一种寻求联结而非分裂的意志。我们必须去爱的、天主赋予我们的、并在基督身上完全彰显的人性伟大——是任何机器永远无法替代的。”——《Magnifica Humanitas》

    科技权力的”私有化”隐忧

    通谕有一个相当犀利的观察:今天推动技术发展的主要力量是私有的、往往是跨国的主体,它们拥有的资源和干预能力超过许多政府。这种技术权力因此带上前所未有的”私有”面孔,使得 discern(辨别)、治理和引导这种权力服务于公共福利变得格外困难。

    这份文件援引了已故教皇方济各的警告:那些掌握知识、特别是经济资源的人,已经获得了”对全人类和整个世界的令人印象深刻的统治力”。AI时代,这个警告的分量只增不减。

    数据、算法、平台——新的”公共品”

    通谕提出了一个很有意思的论点:在传统意义上的”土地、房屋、工具”之外,今天属于”全人类共同目的地”范围的物品,还必须包括专利、算法、数字平台、技术基础设施和数据。

    当国家的财富越来越依赖知识和技术,而这些东西集中在极少数人手里、没有足够的分享和获取机制,就会造成一种新的不平衡,直接违背”公共目的地”原则。这个论点,放在今天关于AI垄断、开源模型和算力集中的讨论里,相当有现实意义。


    各方反应:一份迟到的AI伦理坐标

    这份通谕发布后,在科技伦理圈和AI治理领域引发了不少讨论。支持者认为,这是一份难得的、从人文主义而非监管合规角度讨论AI的纲领性文件;批评者则认为,用宗教框架讨论技术问题,对世俗社会和政策制定者的影响力有限。

    不管立场如何,这份文件提出的核心拷问——”谁在定义AI的规则?”——确实是今天全球AI治理辩论里最缺乏实质答案的问题之一。当模型训练数据、算法目标函数、部署决策都掌握在少数公司手里,所谓”AI造福全人类”更像一句口号而非可验证的承诺。

    教皇良十四世在通谕末尾写道:技术人员、哲学家、神学家、政策制定者和每一个受技术影响的人,都需要参与这场关于”我们想要一个什么样的技术未来”的对话。技术可以治愈、联结、教育和保护我们共同的家园,但它也可以分裂、排斥和制造新的不公——取决于谁在掌舵,以及掌舵的人向谁负责。