分类: AI资讯

聚焦前沿人工智能动态,速览行业热点、技术突破、产业风向与实用 AI 干货,紧跟科技潮流,第一时间掌握 AI 最新趋势。

  • 特朗普签了AI行政令,模型发布前要过政府这一关

    美国总统唐纳德·特朗普在周二签署了一项关于人工智能的行政令,要为AI公司搭一个”自愿框架”——企业可以在前沿模型公开发布之前,先拿给政府看看。官方说法是”促进安全创新,加强关键基础设施网络安全”,听起来挺温和。

    白宫在行政令里明确说了一句话:这”不应被理解为强制许可或者预先审批”。也就是说,企业不配合也不会被罚,完全自愿。

    自愿审查,但谁自愿谁不吃亏

    这个框架最微妙的地方在于”自愿”二字。行政令指示多个联邦机构制定一套流程,在AI模型公开发布之前”评估其高级网络能力”。企业可以自行决定是否把模型交给政府审查,但如果交了,就能获得相应的保密保护——换句话说,不交的企业就得自己承担所有潜在的安全责任。

    实际上,这种”自愿”背后有很现实的考量。上个月,谷歌、微软和xAI已经同意接受商务部下属AI标准与创新中心(CAISI)的发布前审查。先交的企业能拿到政府背书,后交的就可能被视为”不安全”。


    特朗普的态度为什么变了

    这事其实有个背景。特朗普之前曾经推迟签署一项AI行政令,原因是他担心那会”阻碍”美国跟中国的竞争。《纽约时报》的报道说,最初版本的草案允许AI公司在发布前14到90天自愿共享模型,而最终版本把时间压缩到了最多30天。

    更关键的是,此前在特朗普政府中担任白宫AI与加密货币主管的大卫·萨克斯(David Sacks)任内,政府对AI安全问题一直是淡化处理的,基本采取了不干预态度。这次签署行政令,说明白宫的态度在发生微妙转变。

    特朗普签署行政令
    特朗普签署AI行政令,建立模型发布前自愿审查框架(图源:The Verge)

    Anthropic的Mythos模型是关键转折点

    这次态度转变的一个直接诱因,是Anthropic在今年4月有限推出的Mythos模型。Anthropic自己说,这个模型发现了”数千个高危漏洞,包括所有主流操作系统和网页浏览器中都存在的一些漏洞”。

    在此之前,Anthropic曾经因为AI被用于自主致命武器和大规模监控的问题,跟五角大楼闹过法律纠纷。Mythos的出现,似乎为缓和Anthropic跟政府之间的紧张关系创造了一个契机。截至目前,这项行政令甚至获得了一些通常反对限制AI法律的团体的赞扬。

    美国负责任创新组织主席布拉德·卡森(Brad Carson)在声明中说:”白宫正式接受了Mythos模型的影响。”安全AI联盟首席执行官布伦丹·斯坦豪瑟(Brendan Steinhauser)则表示,他的组织”很高兴看到特朗普政府认真对待这些模型的风险”。


    接下来会怎样

    卡森和斯坦豪瑟都在呼吁国会立法,把类似的保护措施变成法律,而不只是靠行政令。毕竟行政令的效力是有限的,下一任总统完全可以把它撤销掉。

    对AI公司来说,这道选择题现在摆在了桌面上:主动配合政府审查,换取某种程度的背书和保护;或者坚持不交,但要面对市场和监管的不确定性。目前看起来,大公司已经用脚投了票。

    📎 原文来源:The Verge — Lauren Feiner
  • 全球顶尖AI科学家联合签署《伦敦宣言》,警告AI网络攻击一年之内杀到

    5月底,在英国皇家学会举办的人工智能安全国际对话(IDAIS)第五届会议闭幕式上,图灵奖得主姚期智、Yoshua Bengio,清华大学智能产业研究院院长张亚勤,加州大学伯克利分校教授Stuart Russell等全球顶尖AI科学家,共同签署了一份《IDAIS伦敦宣言》。

    技术能力有限的非国家行为体,将在一年内掌握部分国家级网络攻击手段。全球社会目前远未做好应对这一紧迫威胁的准备。

    这不是第一次,但这次份量不一样

    IDAIS这个会议系列,2023年由姚期智、Yoshua Bengio、张亚勤、Stuart Russell四个人联合发起,已经跑了五届:牛津、北京、威尼斯、上海,这一届到了伦敦。

    为什么这份宣言值得认真看?因为签字的人不只是学者,他们本身就是各国AI安全政策的顶层智囊。姚期智主导中国AI治理顶层设计,Yoshua Bengio起草过联合国AI报告,Stuart Russell的著作《Human Compatible》几乎是AI安全领域的必读书。这帮人联合发声,等于给各国政府递了一张时间表。


    宣言到底说了什么

    整份宣言的核心逻辑很直接:AI能力正在让”国家级攻击能力”向下溢出,从国家行为体流向非国家行为体——恐怖组织、黑客团体,甚至个人。

    具体说了两个最紧迫的风险领域:

    • 网络攻击:前沿AI已经能在数小时内完成专业团队需要数周的攻击性操作。关停医院、供水系统、电网、金融市场的攻击工具,正在落入远超以往的人群手中。
    • 生物滥用:AI在病原体设计相关任务上已经超越博士级专家。能设计比自然界更危险的人造病原体的能力,正在向非专业人员扩散。这不只是理论风险——宣言明确说”可能在未来造成大规模伤亡”。

    宣言还提了一个更深层的问题:逐步走向自主化的AI系统,本身就可能失控。这不是科幻,是工程现实。


    各国政府现在该做什么

    宣言给出了具体措施清单,不是泛泛而谈。针对网络攻击,优先级最高的几件事:

    • 保护关键基础设施——电网、医院、供水系统,这些是第一批会被打的目标
    • 建立前沿AI系统网络攻击能力评测体系——现在连”多强才算危险”都没有统一标准
    • 部署前强制测试——对具备高级网络能力的模型,不能先发布再治理
    • 访问控制——不是所有人都能调用最强模型,需要身份验证
    • 跨国信息共享——网络威胁指标需要像金融制裁名单一样跨国流通

    生物领域同理,但多了一层:核酸合成筛查。也就是说,以后买合成DNA,供应商要筛查序列是否与危险病原体匹配。这已经在部分国家推进,但远未形成全球标准。


    中国和美国被点名了

    宣言有一句话很克制但很明确:”主要人工智能司法管辖区在协调方面负有特殊责任。这尤其包括美国和中国。”

    这是一个现实判断,不是政治表态。全球最强的大模型公司和最强的算力都在这两个国家手里,没有中美协同,任何AI安全协议都是空话。但中美同时在AI领域激烈竞争,协同治理怎么落地,这是下一个大问题。

    宣言也提到了一个历史类比:切尔诺贝利事故之后,全球民用核能发展被阴影笼罩了数十年。AI如果出一次大规模安全事故,公众信任崩塌的后果,可能比任何技术监管都更致命。

  • OpenAI把手机APP全废了,所有界面AI实时生成,2027年量产

    在6月初的Voice Hack Night活动上,OpenAI团队现场演示了一款”Agentic操作系统”手机原型。核心设计只有一句话:手机上不再有传统APP,所有界面都由AI根据你的指令实时生成。演示者全程没碰屏幕,只靠说话就完成了订机票、删日程、查新闻、发邮件、列待办这五件事。

    “UI即系统”——这不是换个launcher,而是把整个移动交互的底层逻辑推倒重来。界面不是被”打开”的,而是被”生成”的。

    端云分工:轻任务本地跑,重推理甩给云端

    这套系统采用端云协同架构。手机本地模型负责即时生成界面、处理轻量交互,反应速度压到毫秒级。遇到需要复杂推理的任务,比如帮你规划跨城行程或者写一封正式邮件,系统会自动把请求转给云端GPT处理,结果回来再渲染成界面。

    这种分工方式其实解决了AI手机一直没绕过去的坎——纯本地模型能力不够,纯云端又太慢还费流量。OpenAI这次把两条路并在一起,逻辑上说得通,工程上能不能跑顺是另一回事。


    时间线比预期更早:2027年上半年量产

    Sam Altman之前在多个场合暗示过OpenAI在做手机,但一直没给时间表。这次原型亮相之后,内部文件显示的量产节点是2027年上半年,比大多数分析师的预期早了至少半年。

    值得注意的是,这次演示是在Voice Hack Night上由一支团队完成的,不一定是OpenAI内部产品团队的正式原型。但Altman此前明确说过”现在是重新思考操作系统和用户界面设计的合适时机”,方向已经定了,剩下的就是工程落地。


    这事如果成了,谁最慌

    如果”无APP手机”真的在2027年落地,受到冲击的不只是苹果和谷歌。APP开发者、应用商店、整个移动广告链条都会被重构。用户以后不需要去应用商店搜软件,直接对手机说需求,界面就出来了。

    • 苹果:iOS的护城河就是APP生态,这套玩法直接绕开
    • 谷歌:Android的商业模式很大程度依赖应用商店分成和搜索广告,都会被波及
    • APP开发者:以后可能不需要开发”应用”了,而是训练”技能”

    当然,现在说这些还早。原型演示和量产上市之间隔着芯片、系统稳定性、隐私合规、生态迁移一大堆坑。但方向已经摆在这了,接下来的看点就是苹果和谷歌怎么接招。

  • Spotify牵手环球音乐,让粉丝用AI翻唱你喜欢的歌

    Spotify最近跟环球音乐集团(UMG)签了一份协议,核心内容很简单:允许粉丝用AI来翻唱和混音自己喜欢的歌。这个功能会以付费附加组件的形式提供给Spotify Premium用户,参与活动的艺术家能从这些AI衍生作品里拿到分成。

    Spotify AI音乐创作功能示意图
    Spotify与环球音乐合作,粉丝可用AI创作翻唱和混音(图源:TechCrunch)

    跟Suno走的是两条路

    这件事最有意思的地方在于Spotify选择的路线。Suno和Udio这些AI音乐工具早就上线了,但一直活在版权诉讼的阴影里——各大唱片公司告了个遍。Suno去年跟华纳音乐和解,赔了5000万美元;Udio也跟华纳和环球陆续达成了和解。但Spotify的做法是先把版权谈下来,再去做产品。

    Spotify联合首席执行官Alex Norström的表态说得很明白:关键是”同意、署名、报酬”这三个原则。艺术家和词曲作者有权选择参不参与,如果参与,就得拿到公平的报酬。这跟Suno那种”先上线再摆平”的路子完全是两回事。

    平台方亲自下场谈版权,这个动作本身就说明AI音乐创作已经从小众玩具变成了主流平台愿意押注的方向。

    艺术家买不买账还不知道

    环球音乐集团CEO Lucian Grainge爵士当然说得好听,称这是艺术家”深化与粉丝关系”的好机会。但问题是——目前还没有任何消息说明有哪些艺术家同意参与这个项目。没有创作者的参与,这个功能就是一具空壳。

    Spotify在同一天的投资者日活动上还发布了不少其他AI功能:基于ElevenLabs的有声书创作工具、面向播客创作者的AI辅助功能、用来制作个人播客的桌面应用,还有给铁粉预留演唱会门票的功能。AI翻唱只是这一整盘棋里的一颗子。


  • 黑客骗过Meta AI客服,直接把Instagram账号给接管了

    上周末,Reddit和X上突然冒出一大批”账号被黑”的投诉帖,受害者全是Instagram用户。被盯上的账号五花八门——有奥巴马时期白宫那个早已停用的账号,还有美国太空军总军士长的个人账号。安全研究员Jane Wong也中招了,她在X上吐槽:密码在她完全不知情的情况下被改掉,前一天她还收到一大堆密码重置尝试的请求,想想都觉得后怕。

    Meta AI聊天机器人安全漏洞示意图
    Meta AI支持聊天机器人被黑客利用,成为账号劫持的入口(图源:TechCrunch)

    漏洞到底出在哪

    攻击手法说起来挺荒唐的。黑客不需要偷你的密码,不需要碰你的邮箱,只要想办法骗过Meta的AI客服机器人就行。

    具体步骤是这样的:黑客先用VPN伪装成目标用户的大致地理位置,避免触发Instagram的异地登录保护。然后找到Meta AI支持助手,跟它说”帮我给这个账号加个新邮箱”。AI机器人居然真的照做了——它会把验证码发到黑客指定的邮箱,黑客把验证码回传给机器人,机器人就会弹出一个”重置密码”按钮,输入新密码,账号直接沦陷。

    黑客全程不需要碰你绑定的原始邮箱。AI客服机器人自己就把门给打开了。

    影响范围有多大

    目前还不清楚究竟有多少账号被这套手法攻破。Instagram发言人Andy Stone在X上回复相关帖子时只说”问题已经修复”,但对受影响用户数量闭口不谈。Meta方面也没有回应TechCrunch的置评请求。

    这件事暴露出的问题很直接:把账号恢复权限交给AI聊天机器人,却没有设置足够严格的身份验证门槛,等于在城门上挂了把纸锁。黑客不需要多高深的技术,只要会跟AI”好好说话”就够了。


  • 全球顶尖科学家签署《IDAIS伦敦宣言》,AI安全威胁已近在眼前

    AI 安全,这次是顶尖科学家自己站出来了

    四月十七日到十九日,四个图灵奖得主凑在一起,在英国皇家学会开了三天会。这件事本身就不太寻常——Yoshua Bengio、姚期智、Stuart Russell、张亚勤,这四个名字任何一个单拎出来都够开一场主旨演讲,现在他们坐同一张桌子旁边,讨论的是同一件事:人工智能驱动的攻击行为,社会有没有准备好。

    这场活动是”人工智能安全国际对话”(IDAIS)的第五场。这个机制是 2023 年成立的,之前走过了牛津、北京、威尼斯、上海,这一站放在伦敦,本身就有信号意义——英国在 AI 安全治理上一直想当”中间人”角色,既不完全跟美国走,也不站中国这边。

    按照当前的技术演进速度,资源极为有限的非国家行为体——从有组织团体到独狼式个人——有望在一年内掌握部分国家级网络攻击手段。

    声明里写了什么,为什么现在发

    这份在伦敦签署的共识声明,核心警告可以浓缩成两句话:AI 正在让”搞破坏”的门槛降得比以前低太多,而全球社会还没准备好应对这个变化。

    声明具体点了两大风险领域。第一个是 AI 赋能的网络攻击。前沿 AI 系统现在已经能在数小时内完成专家团队需要耗费数周才能完成的编程工作,包括发现并利用主流操作系统和浏览器的漏洞。曾经只有资源充足的国家行为体才能搞定的复杂攻击,现在正在以远超以往的速度落入远为广泛的人群手中。

    第二个风险领域是生物滥用。前沿 AI 系统在与病原体设计相关的任务上已经超越博士级专家,使得较低层级的生物能力逐步进入非专业人士的可及范围。声明特别提到:能规划并协调多步骤实验室任务、还能协助构建新型专用生物 AI 模型的智能体,会进一步放大这个风险。

    两大风险领域,声明给出了哪些应对方向

    针对网络攻击风险,声明提出了几个优先事项:保护关键基础设施、建设对前沿 AI 系统网络攻击能力的评测能力、要求开展部署前测试并在必要时延迟更广泛的开放、对具备高级网络能力的前沿 AI 系统实施访问控制、建立信息共享与漏洞披露机制。

    针对生物滥用风险,声明同样给出了优先事项:强化 AI 防护措施以应对高危生物滥用、对前沿闭源模型采取拒答训练和可信访问控制、对前沿开放权重模型开展预训练数据过滤、建设对前沿 AI 系统生物能力提升的评测能力、在核酸合成筛查方面开展国际协调。

    这些措施听起来都很”应该”,但声明本身也坦承:目前的防护手段”远远不够”,基础性的技术与社会防御体系”仍处于萌芽阶段”,且在各司法管辖区之间部署极不均衡。

    中国和美国,都被点名了

    声明有一段话值得单独拎出来说:”主要人工智能司法管辖在协调方面负有特殊责任。这尤其包括美国和中国,以及其他在人工智能开发、部署和评估方面具有重要能力的司法管辖区。”

    这是一份国际科学声明直接点名中美两国在 AI 安全治理上的特殊责任。过去类似声明往往泛泛而谈”国际社会应当……”,这次写得相当具体。

    Yoshua Bengio 一直是 AI 安全领域最敢说的顶尖科学家之一。他牵头起草的《国际 AI 安全报告》在 2025 年发布,当时就有不少政府官员觉得”写得过于直白了”。这次 IDAIS 伦敦宣言的措辞同样相当直接,没有太多外交辞令。

    声明最后还有一段类比,值得所有 AI 从业者认真读一读:”一场严重的人工智能赋能灾难不仅会造成巨大的直接危害,更会摧毁公众对人工智能系统的信任,并使人工智能本可带来的重大社会效益付诸东流。切尔诺贝利事故重创了全球核工业,至今仍让民用核能蒙上阴影,尽管现代反应堆设计已安全得多。”

    把 AI 安全风险和切尔诺贝利相提并论——这份声明的分量,可能比很多人第一眼看到的要重得多。


  • OpenAI现场演示无APP手机:所有界面实时生成,推理甩给云端GPT

    把App图标全删了,手机只装一个GPT

    OpenAI 在 Voice Hack Night 活动上搞了个相当激进的演示。一支团队现场展示了一款为手机打造的”智能体操作系统”原型,整场演示看下来,最让人坐不住的点在于:这部手机上没有一个传统 App。

    所有操作界面都是”即时生成”的。你需要订机票,界面就现场画出一个订票界面;你要查日程,它就给你生成一个日程管理视图。不是从手机存储里调出一个安装好的应用,而是需要什么界面,系统就即时画出来什么界面。

    “UI 即系统”——这套原型的核心设计理念,说白了就是把”打开某个 App 才能完成某件事”这个逻辑整个推翻掉。

    技术实现上,这套原型把任务分成了两层。手机本地跑一个小模型,负责实时生成界面——你说出需求,它立刻把对应的操作界面渲染出来。需要重推理的任务(比如理解复杂语义、联网搜索、生成长回复)则交给云端 GPT 处理。

    现场演示里,开发者全程用语音下指令,完成了好几个任务:订机票、删日历日程、查 AI 新闻、发邮件、列待办清单。整个过程没有点开任何一个 App 图标。

    Sam Altman 的”手机梦”动了真格

    这件事的背景是,OpenAI 一直在悄悄推进它的硬件战略。早有消息说它在做手机项目,最近团队已经扩张到了 200 人,核心成员几乎清一色来自苹果。苹果的设计和工程人才被挖走不少,这本身就很说明问题——OpenAI 要做的不只是一款手机,而是重新定义”什么是手机操作系统”。

    Sam Altman 之前好几次暗示过这个方向。他说过”现在是认真重新思考操作系统和用户界面设计的合适时机”,当时很多人以为他只是在说软件层面的改进。现在看来,他脑子里想的是从硬件到操作系统到交互逻辑的全栈重构。

    时间点方面,最新的消息是 OpenAI 把量产目标定在了 2027 年上半年,比外界之前预期的要早。如果这件事真的发生,它可能会改变过去十五年基本没变过的智能手机交互范式。

    当然,现在还只是原型

    现场的演示是在受控环境下做的,真实场景的复杂度远不止此。语音识别在嘈杂环境下的表现、即时生成界面的响应速度、云端推理的延迟和成本——这些都是要解决的问题。

    但方向本身已经很清楚了:OpenAI 不只想做手机上的一个新 App(比如 ChatGPT),它想做的是让”打开 App”这件事本身变得多余。你在手机上要做任何事,直接说、或者直接想,界面随之生成,任务由 AI 智能体完成。

    这对现有的手机操作系统格局(iOS 和 Android 的双寡头)意味着什么,现在下结论还为时过早。但 OpenAI 把200 个硬件人才的团队攒起来这件事本身,已经值得整个行业认真想一想了。


  • OpenAI在2026年5月这波更新,藏着他们真正的野心

    OpenAI在2026年5月这波更新,藏着他们真正的野心

    2026年4月23日到5月28日这段时间,OpenAI密集发布了一堆更新。表面上看,就是发布了新模型、修了几个bug、加了两个功能。但如果你仔细看这波操作的逻辑,会发现他们真正想做的,是把AI从”聊天工具”变成”能连续工作几小时的数字化员工”。

    GPT-5.5来了,但重点不是”更聪明”

    4月23日,GPT-5.5在API、ChatGPT Plus/Pro、Codex、Copilot中上线。数字看着挺漂亮:支持100万token上下文,SWE-bench Verified得分88.7%,MMLU 92.4%,定价5/30美元每百万token。

    但真正有意思的是5月5日上线的GPT-5.5 Instant,它取代了GPT-5.3 Instant成为所有ChatGPT用户的默认模型。OpenAI内部测试显示,在高风险提示下,它的幻觉率比上一代降低了52.5%。用户标记过事实错误的真实对话中,不准确陈述减少了37.3%。

    GPT-5.5 Instant的输出也更简洁了,相同提示下输出字数减少30.2%。以前那种”好的!我很乐意帮助您…”的废话开头,现在少多了。

    不过有个细节值得注意:52.5%的幻觉降低,是在开启工具使用的高风险提示下测得的数据。如果不开启工具,纯靠模型自己生成长文本,GPT-5.5的幻觉率仍有86%,远高于Claude Opus 4.7的36%。所以,它的事实性优势主要来自工具引导和上下文工程,而不是基础模型本身有多牛。

    Codex CLI偷偷升级成了”持久自主运行时”

    5月7日到26日,Codex CLI连发4个版本。表面上是加了Vim编辑支持、修了几个bug、改进了UI。但5月21日v0.133.0的更新,才是这波操作的核心:目标模式(Goals Mode)默认开启

    这个”目标模式”是干嘛的?简单说,就是你定义一个结果和成功标准,然后Codex可以自己跑几个小时甚至几天,而且进度是跨轮次、跨会话、跨机器持久化的。目前这个功能在CLI、IDE扩展、ChatGPT应用里都已经正式可用。

    这意味着什么?以前你让AI帮你写代码,它写完就完事儿,你得自己测试、自己修bug、自己接着往下做。现在你可以直接甩给它一个目标,比如”把这个项目的所有单元测试覆盖率提升到80%”,然后你就可以去干别的了,它自己会想办法、自己测试、自己迭代,直到达成目标或者卡住。

    Codex目标模式示意图
    Codex目标模式让AI可以自主工作数小时

    其他几个更新也挺实用:v0.131.0支持通用的”@”选择器,可以一次性搜索文件、目录、插件、技能;v0.134.0支持对话历史搜索,还支持按服务器配置MCP环境变量。这些看起来是小事儿,但堆在一起,就是在把Codex从”交互式编码助手”升级成”持久自主运行时”。

    ChatGPT for Excel和Google Sheets,这步棋下得挺大

    5月5日,ChatGPT for Excel和Google Sheets正式发布。这个功能是在Excel和Google Sheets里加个侧边栏,让ChatGPT直接读写你的电子表格。

    有两个概念值得注意:技能(Skills)是可复用的操作手册,教ChatGPT如何处理你这个组织的电子表格工作流、格式和审核步骤;应用(Apps)允许侧边栏连接外部数据源(比如金融数据、内部数据库),让推理基于正确的上下文,而不只是靠公式推理。

    这个动作的信号很清晰:OpenAI不想让ChatGPT只是个”聊天框”,他们想让它嵌入到你的工作流里。Excel和Google Sheets是全世界上亿人的日常工具,把AI直接塞进去,比让你打开个网页聊天的使用频率高多了。

    商业和企业版用户可以免费试用到2026年6月2日,之后就要按套餐积分配额计费了。这个时间节点卡得挺准,给你一个月时间尝鲜,然后就开始收费。

    记忆源(Memory Sources):个性化推荐背后的隐私陷阱

    5月18-20日,记忆源功能向Plus和Pro用户的网页端开放。这个功能的核心是:当ChatGPT给你个性化回答时,你可以查看它引用了哪些来源——过往对话、保存的记忆、自定义指令、文件库中的文件、已连接的Gmail账户邮件。

    每个来源都可以修正、删除或标记为”不相关”。共享对话不包含来源列表,所以共享边界处的隐私是受到保护的。

    紧接着,Google日历集成也来了:连接日历后,ChatGPT可以起草会议议程、推送生日提醒、为即将到来的旅行推荐餐厅。

    这里有一个明显的隐私权衡:你连接了Gmail或日历之后,其中的内容可能会在回答中露出来。如果你忘了已经连接了Gmail,然后问它”我们的Q2战略”,它可能会引用一封你早就忘了的邮件线程。建议定期去审计一下记忆源面板。


    GPT-5.6的影子:到底发没发布?

    5月中旬,有用户发现Codex日志中短暂出现过gpt-5.6的部署映射条目,但很快就消失了,回滚成了gpt-5.5。这个现象符合后端金丝雀测试的特征:把少量生产流量路由到实验版本,测量性能和行为。

    所以,GPT-5.6大概率是在开发中。Polymarket的交易者认为,2026年6月30日之前公开发布的概率是80-89%。但这是博彩市场的信号,不是厂商的承诺。

    OpenAI目前没有发布GPT-5.6的模型卡、API端点、基准测试或者发布日期。所以如果你在规划Q3的路线图,建议先基于GPT-5.5开发,保持模型ID可配置,方便后续一行代码迁移。任何假设GPT-5.6六月发布的路线图,目前都只是押注,不是承诺。

    跟Claude Opus 4.7、Gemini 3.1 Pro比,GPT-5.5赢在哪?

    2026年5月,这三款旗舰模型在Artificial Analysis智能指数上只相差约3分。差异化不再来自原始能力,而是各自的优势领域。

    • GPT-5.5:在代理执行领域领先,Terminal-Bench得分82.7%(Opus 4.7是69.4%),OSWorld 78.7%。它有全新的Codex目标模式运行时和最深入的第一方工具集成。
    • Claude Opus 4.7:SWE-bench Pro得分64.3%(GPT-5.5是58.6%),长文本事实性幻觉率36%(同基准下GPT-5.5是86%)。写作质量更优,更适合风险敏感的企业场景。
    • Gemini 3.1 Pro:纯推理能力领先,GPQA Diamond 94.3%,ARC-AGI-2 77.1%,而且价格更低(输出约12美元每百万token,不到GPT-5.5或Opus 4.7的一半)。

    选型建议挺直白:自主代理和Office嵌入工作流选GPT-5.5,代码审查和高信任长文本选Opus 4.7,成本敏感的大规模场景或多模态视频选Gemini 3.x。

    开发者这个月实际踩了哪些坑

    文档是一回事,生产环境是另一回事。这个月开发者实际踩过的坑包括:

    • Codex 40万 vs API 100万上下文不匹配:给Codex喂接近API 100万限制的提示会报错”超出模型上下文窗口”。Codex内上限需控制在40万token。
    • 推理token计费:思考token按输出费率计费,不是单独的等级,而且计入上下文预算。需要谨慎设置reasoning_effort
    • 长文本幻觉:GPT-5.5长文本事实性幻觉率86%,跟Opus 4.7的36%差距明显。无检索接地的情况下多段落事实生成,是这个模型的最大弱点。
    • Codex 0.134配置文件迁移:旧配置文件会被拒绝,需要显式传入--profile或更新配置文件到新schema。
    • 记忆源隐私:如果连接了Gmail或日历但忘了,相关邮件内容会在上下文相关的回答中露出来。共享前务必审计记忆源面板。

    写在最后

    OpenAI这波5月更新的核心逻辑,其实不是在比谁的模型更聪明,而是在布局”AI能不能真正替人干活”。GPT-5.5 Instant降低幻觉、Codex目标模式支持长时间自主运行、ChatGPT嵌入Excel和Google Sheets——这些都是在把AI从”聊天工具”推向”数字化员工”。

    竞争对手也没闲着。Anthropic的Claude Opus 4.7在事实性和代码审查上仍有优势,Google的Gemini 3.5 Flash在成本和多模态上发力。这场AI战争,已经从”谁的模型分数高”转向”谁能真正嵌入到用户的工作流里”。

    对于开发者来说,现在最务实的策略是:先基于GPT-5.5构建,但保持模型ID可配置。GPT-5.6大概率会在Q3发布,到那时候,一行代码就能切换过去。但在那之前,先把能用的功能用起来,比等着”下一代模型”更实际。

  • AI智能体这事儿,终于从”能聊”变成”能干活”了

    AI智能体这事儿,终于从”能聊”变成”能干活”了

    2026年有个明显的变化,AI不再只是坐在那里跟你聊天、回答问题,而是开始真正动手干活。这个转折点是个叫OpenClaw(龙虾)的开源AI代理框架,它的出现让整个行业都坐不住了,百度、阿里巴巴、腾讯、字节、智谱、月之暗面这些巨头公司一下子全都冲了进来。

    就在这个节骨眼上,5月份国家网信办、国家发展改革委、工业和信息化部三家联合印发了《智能体规范应用与创新发展实施意见》,给这个新兴领域立了规矩。

    智能体到底是个啥?

    按官方说法,智能体是”具备自主感知、记忆、决策、交互与执行能力的智能系统”。说人话就是:以前的大模型像个只会纸上谈兵的军师,你问它啥它都能跟你掰扯半天,但真要它动手干活,它就傻眼了。

    现在的智能体不一样,它能看屏幕、点鼠标、自动执行任务。百度创始人李彦宏说得挺直白:”智能体出圈了,第一次,AI的主角不是模型,而是应用。过去几年竞争核心是模型能力,现在用户真正买单的是’你能不能帮我把事做完’。”

    衡量一个AI平台有没有戏,李彦宏提出要看DAA(日活智能体数),而不是DAU(日活用户数)。意思是,有多少Agent在给人类干活并交付结果,这才是真实的价值。

    技术底座:从”大脑”到”执行”

    要让智能体真正能干活,光有个”聪明的大脑”不够,还得有完整的感知、规划、执行、验证链路。月之暗面(Moonshot AI)的Kimi就是个典型例子,他们自研了大语言模型,总参数量达到1万亿,每次推理时激活约320亿参数,配备了384个细粒度领域专家。

    这个模型用了MLA多头潜在注意力机制,把显存占用降到了传统架构的1/8,还引入了多Token预测目标来提升生成效率。这些技术细节听着枯燥,但实际效果就是:智能体能处理更长、更复杂的任务,而且不容易”掉链子”。

    科研场景:从翻遍文献到一键出报告

    《实施意见》里列出了19个智能体典型应用场景,科学研究排在第一位。2025年7月,上海交通大学和深势科技推出了通用科研智能体”SciMaster”,这个东西能干嘛呢?

    你扔给它一个科学问题,比如”分子动力学在药物筛选中的典型流程是怎样的?”,它能把问题拆成多个子任务,全网搜文献、整合资讯、数据、论文、专利,最后给你生成一份能落地的深度调研报告。

    AI智能体科研应用
    AI智能体正在深度赋能科研场景

    在药物研发领域,智能体能把跨靶点的研究证据整合进知识图谱;在新材料领域,像电解液、固体电解质有机合成这些方向,也有智能体研发辅助产品。据湘汉智库的研究报告,智能体已经深度渗透材料化学、基因组生物信息、生物医学健康等核心科研领域。

    电商场景:”一句话点外卖”成真

    今年初,淘宝闪购跟千问智能体打通了。5月11日,千问与淘宝全面打通,这标志着全球超大规模电商平台与智能体应用的深度融合。

    现在你可以直接跟智能体说”帮我点杯咖啡,不加冰”、”两份米线,其中一份加辣不要豆芽”,它能自动识别你的意图、位置和偏好,然后推荐可下单的商品。这个合作已经覆盖了全国300多个地级市和超过3000个区县,品类涵盖餐饮外卖、超市便利、生鲜蔬果、鲜花绿植、医药健康、手机数码等等。

    有个挺有意思的细节:AI在帮忙选品时,还可能做出”劝退”动作。比如你试图让智能体买个”量子水杯”,它可能会直接给你科普一波,告诉你这玩意儿不靠谱。这种”反销售”功能,倒是挺接地气的。

    金融和教育:秒读财报、梳理文献

    以前券商研究员做行业研究,得泡在海量研报、财报、新闻里,翻遍资料,2-3天才能攒出一份初稿。现在把研究主题丢给Kimi,它立刻自动全网检索、逐页精读财报、提炼核心观点,一气呵成输出结构化分析草稿。原先2-3天的”苦活儿”,现在2-3小时就搞定。

    教育领域也是一样,文献”大山”一直是高校师生的头号痛点。现在只需一次对话,智能体就能一口气读完所有文献,自动完成分类归档、提炼核心观点,梳理出包含研究脉络、争议焦点、未来方向的完整综述框架。博士生过去要熬2-3周才能啃完的文献梳理,现在1-2天就能拿出初版,而且内容更全面、更系统。


    安全问题:智能体也需要”纠偏”

    智能体当然不是完美无缺的,”满嘴跑火车”的幻觉问题、决策跑偏、执行掉链子,都是行业面对的难题。为了给智能体”纠偏”,研发端从技术上打响了”精准纠错战”。

    深势科技的CTO廖若雪说得很实在:科学场景对于事实的准确性和推理的可溯源性要求极高。首先,智能体的知识需要是结构化的,而不是完全依赖模型去记忆知识;其次,智能体的推理过程也要通过特定算法进行置信度校验;此外还需强调验证,关键的科学论断不能只由智能体自行评估,得通过实际运行结果来验证结论是否真实。

    360 AI安全研究院最近发布了《AI安全系列报告》,指出随着智能体加速进入企业办公、研发、运维、客服等核心业务场景,AI安全的核心问题正在从”生成风险”转向”执行风险”。他们提出了两条解决路径:一是用AI加持传统安全防护,提高漏洞发现、入侵研判、样本分析和响应处置效率;二是让不确定性任务在安全约束下执行,让智能体可以做事,但不能越界。

    清华大学文科资深教授、苏世民书院院长薛澜认为,《实施意见》通过设定全链条安全要求,系统性预防智能体技术滥用、决策失控等风险,为智能体技术在全社会规模化应用建立必要的安全信任基础。

    写在最后

    智能体的崛起,既是技术迭代的必然,更是时代发展的趋势。这不是简单的技术升级,而是工作方式、商业逻辑、生活体验的全面重构。政策护航、技术成熟、场景落地,多重力量正推动智能体从行业探索走向深度赋能。

    根据《AI智能体赋能行业决策:趋势与实践白皮书(2026)》,智能体在制造、金融、政务等行业的渗透率已经超过50%。这个数字背后,是无数工作场景正在发生的真实变革。

  • 格莱美CEO亲解:AI写的歌到底能不能拿奖?

    格莱美奖的主办方、录音学院CEO哈维·梅森(Harvey Mason Jr.)最近再次坐到了《The Verge》主编尼尔·帕特尔(Nilay Patel)的播客节目里。距离他们上一次对话已经过去18个月,而这18个月里,生成式AI对音乐产业的渗透速度快到让人反应不过来。

    「AI目前只能基于已有的人类创作做迭代,还无法创造出全新的音乐风格、流派,推动艺术形式向前的核心依然是人类的生活体验和情感表达。」——哈维·梅森,录音学院CEO

    上次聊天的时候,哈维还说”AI不可能写出《Songs in the Key of Life》那种级别的作品”。这次他坦率承认:AI生成的内容质量已经大幅提升,现在很难直接分辨出哪些是人写的、哪些是AI生成的。

    录音室里已经到处都是AI了

    作为资深音乐制作人,哈维说现在流行和R&B的录音session里,AI几乎已经”无处不在”——生成和弦进程、补充鼓点循环、辅助写歌词、制作背景和声、生成小样……甚至电影配乐领域已经有人用AI把单乐器的旋律扩展成完整管弦乐编曲,编曲成本大幅降低。

    一个耐人寻味的矛盾是:民调显示52%的听众不愿意听使用AI辅助创作的音乐,66%的听众表示从未主动听过AI生成的音乐,而且年轻群体对AI的反感程度更高。但行业里几乎所有人都在用AI工具,只是没有人愿意公开承认。

    Suno CEO曾经打了个比方:AI就像音乐行业的司美格鲁肽——所有人都在用,但没人愿意公开说。


    格莱美的评选规则:人类创造力必须占大头

    格莱美奖的核心原则是”奖励人类创造力”,目前规则为:只要作品中人类创造力占比超过”最小必要量(de minimis)”,就可以参与评选,不会完全禁止AI辅助创作的作品。

    具体判定逻辑为:如果AI仅用于辅助(比如生成背景和声、辅助写歌词),人类创作者依然可以凭借词曲创作、演唱等人类贡献的部分参评对应奖项;但如果作品完全由AI生成,或者AI承担了核心创作、表演工作,那就拿不到格莱美的入场券。

    问题是,目前还没有成熟的技术可以精准检测作品里AI的参与比例,评选只能靠申报人自主披露和评审委员会核查。哈维表示音乐人社群的整体诚信度较高,但也承认这套体系并不完美,未来需要技术工具辅助判定。


    监管能跟上吗?

    哈维刚从华盛顿回来。他的判断是:2026年推出全面的AI监管立法的可能性较低,但两党对《No Fakes Act》(保护艺人声音和肖像权)的支持度较高,有望率先推进。

    其他相关法案包括《TRAIN Act》(要求AI公司公开训练数据,允许创作者追讨版税)、《CLEAR Act》(AI透明度法案,要求公开模型训练数据来源)也在讨论中。

    哈维认为平台自主推出的保护措施(比如YouTube的肖像识别系统)是积极的第一步,但更需要全国层面、全行业统一的规则,降低音乐人的维权成本。