博客

  • OpenAI把手机APP全废了,所有界面AI实时生成,2027年量产

    在6月初的Voice Hack Night活动上,OpenAI团队现场演示了一款”Agentic操作系统”手机原型。核心设计只有一句话:手机上不再有传统APP,所有界面都由AI根据你的指令实时生成。演示者全程没碰屏幕,只靠说话就完成了订机票、删日程、查新闻、发邮件、列待办这五件事。

    “UI即系统”——这不是换个launcher,而是把整个移动交互的底层逻辑推倒重来。界面不是被”打开”的,而是被”生成”的。

    端云分工:轻任务本地跑,重推理甩给云端

    这套系统采用端云协同架构。手机本地模型负责即时生成界面、处理轻量交互,反应速度压到毫秒级。遇到需要复杂推理的任务,比如帮你规划跨城行程或者写一封正式邮件,系统会自动把请求转给云端GPT处理,结果回来再渲染成界面。

    这种分工方式其实解决了AI手机一直没绕过去的坎——纯本地模型能力不够,纯云端又太慢还费流量。OpenAI这次把两条路并在一起,逻辑上说得通,工程上能不能跑顺是另一回事。


    时间线比预期更早:2027年上半年量产

    Sam Altman之前在多个场合暗示过OpenAI在做手机,但一直没给时间表。这次原型亮相之后,内部文件显示的量产节点是2027年上半年,比大多数分析师的预期早了至少半年。

    值得注意的是,这次演示是在Voice Hack Night上由一支团队完成的,不一定是OpenAI内部产品团队的正式原型。但Altman此前明确说过”现在是重新思考操作系统和用户界面设计的合适时机”,方向已经定了,剩下的就是工程落地。


    这事如果成了,谁最慌

    如果”无APP手机”真的在2027年落地,受到冲击的不只是苹果和谷歌。APP开发者、应用商店、整个移动广告链条都会被重构。用户以后不需要去应用商店搜软件,直接对手机说需求,界面就出来了。

    • 苹果:iOS的护城河就是APP生态,这套玩法直接绕开
    • 谷歌:Android的商业模式很大程度依赖应用商店分成和搜索广告,都会被波及
    • APP开发者:以后可能不需要开发”应用”了,而是训练”技能”

    当然,现在说这些还早。原型演示和量产上市之间隔着芯片、系统稳定性、隐私合规、生态迁移一大堆坑。但方向已经摆在这了,接下来的看点就是苹果和谷歌怎么接招。

  • Spotify牵手环球音乐,让粉丝用AI翻唱你喜欢的歌

    Spotify最近跟环球音乐集团(UMG)签了一份协议,核心内容很简单:允许粉丝用AI来翻唱和混音自己喜欢的歌。这个功能会以付费附加组件的形式提供给Spotify Premium用户,参与活动的艺术家能从这些AI衍生作品里拿到分成。

    Spotify AI音乐创作功能示意图
    Spotify与环球音乐合作,粉丝可用AI创作翻唱和混音(图源:TechCrunch)

    跟Suno走的是两条路

    这件事最有意思的地方在于Spotify选择的路线。Suno和Udio这些AI音乐工具早就上线了,但一直活在版权诉讼的阴影里——各大唱片公司告了个遍。Suno去年跟华纳音乐和解,赔了5000万美元;Udio也跟华纳和环球陆续达成了和解。但Spotify的做法是先把版权谈下来,再去做产品。

    Spotify联合首席执行官Alex Norström的表态说得很明白:关键是”同意、署名、报酬”这三个原则。艺术家和词曲作者有权选择参不参与,如果参与,就得拿到公平的报酬。这跟Suno那种”先上线再摆平”的路子完全是两回事。

    平台方亲自下场谈版权,这个动作本身就说明AI音乐创作已经从小众玩具变成了主流平台愿意押注的方向。

    艺术家买不买账还不知道

    环球音乐集团CEO Lucian Grainge爵士当然说得好听,称这是艺术家”深化与粉丝关系”的好机会。但问题是——目前还没有任何消息说明有哪些艺术家同意参与这个项目。没有创作者的参与,这个功能就是一具空壳。

    Spotify在同一天的投资者日活动上还发布了不少其他AI功能:基于ElevenLabs的有声书创作工具、面向播客创作者的AI辅助功能、用来制作个人播客的桌面应用,还有给铁粉预留演唱会门票的功能。AI翻唱只是这一整盘棋里的一颗子。


  • 黑客骗过Meta AI客服,直接把Instagram账号给接管了

    上周末,Reddit和X上突然冒出一大批”账号被黑”的投诉帖,受害者全是Instagram用户。被盯上的账号五花八门——有奥巴马时期白宫那个早已停用的账号,还有美国太空军总军士长的个人账号。安全研究员Jane Wong也中招了,她在X上吐槽:密码在她完全不知情的情况下被改掉,前一天她还收到一大堆密码重置尝试的请求,想想都觉得后怕。

    Meta AI聊天机器人安全漏洞示意图
    Meta AI支持聊天机器人被黑客利用,成为账号劫持的入口(图源:TechCrunch)

    漏洞到底出在哪

    攻击手法说起来挺荒唐的。黑客不需要偷你的密码,不需要碰你的邮箱,只要想办法骗过Meta的AI客服机器人就行。

    具体步骤是这样的:黑客先用VPN伪装成目标用户的大致地理位置,避免触发Instagram的异地登录保护。然后找到Meta AI支持助手,跟它说”帮我给这个账号加个新邮箱”。AI机器人居然真的照做了——它会把验证码发到黑客指定的邮箱,黑客把验证码回传给机器人,机器人就会弹出一个”重置密码”按钮,输入新密码,账号直接沦陷。

    黑客全程不需要碰你绑定的原始邮箱。AI客服机器人自己就把门给打开了。

    影响范围有多大

    目前还不清楚究竟有多少账号被这套手法攻破。Instagram发言人Andy Stone在X上回复相关帖子时只说”问题已经修复”,但对受影响用户数量闭口不谈。Meta方面也没有回应TechCrunch的置评请求。

    这件事暴露出的问题很直接:把账号恢复权限交给AI聊天机器人,却没有设置足够严格的身份验证门槛,等于在城门上挂了把纸锁。黑客不需要多高深的技术,只要会跟AI”好好说话”就够了。


  • NextChat:88K Stars!轻量极速的跨平台AI对话界面,让AI助手触手可及

    NextChat:88K Stars!轻量极速的跨平台AI对话界面,让AI助手触手可及

    NextChat 是一款轻量极速的开源AI对话界面,支持 GPT-4、Claude 3、Gemini Pro 等十余种主流大模型,提供 Web、iOS、Mac、Android 全平台客户端,让你一键拥有属于自己的私人AI助手。

    NextChat 界面预览

    NextChat 优雅的对话界面

    🚀 项目简介

    NextChat(原名 ChatGPT-Next-Web)是一个基于 Next.js + React 构建的跨平台 AI 聊天机器人 Web UI。项目从2023年发布至今,已获得 88K+ Stars,成为 GitHub 上最受欢迎的开源 AI 对话前端之一。

    它的设计理念是:快、轻、美。整个应用打包后仅约 5MB(Tauri 桌面端),网页端更是做到了极致的加载速度和响应体验。

    NextChat 多模型支持

    📦 安装要求和过程

    环境要求

    • Web 部署:Node.js 18+ 或 Vercel 账号(推荐)
    • 桌面端:Windows / macOS / Linux
    • 移动端:iOS 15+ / Android 8+
    • API Key:需要 OpenAI / Claude / Gemini 等任一模型的 API Key

    快速安装 – 三种方式

    方式一:Vercel 一键部署(推荐)

    最快的方式,5秒钟完成部署:

    1. 访问 NextChat GitHub 仓库
    2. 点击 Deploy with Vercel 按钮
    3. 登录 Vercel,fork 项目并部署
    4. 在 Vercel 环境变量中添加你的 OPENAI_API_KEY
    5. 部署完成!获得你的私人 ChatGPT 域名

    方式二:Docker 部署

    # 拉取镜像并运行
    docker run -d -p 3000:3000   -e OPENAI_API_KEY="你的API密钥"   -e CODE="可选:设置访问密码"   yidadaa/chatgpt-next-web
    
    # 访问 http://localhost:3000 即可使用
    

    方式三:本地开发

    # 克隆项目
    git clone https://github.com/ChatGPTNextWeb/NextChat.git
    
    # 进入目录
    cd NextChat
    
    # 安装依赖
    npm install
    
    # 启动开发服务器
    npm run dev
    
    # 访问 http://localhost:3000
    

    💡 核心功能

    1. 多模型支持,一个界面搞定所有AI

    NextChat 最大的优势在于统一接口。你可以在同一个界面中切换:

    • OpenAI:GPT-3.5, GPT-4, GPT-4o, GPT-4 Turbo
    • Anthropic Claude:Claude 3 Haiku, Sonnet, Opus
    • Google:Gemini Pro, Gemini Ultra
    • 国内模型:DeepSeek, 通义千问, 文心一言, 讯飞星火
    • 本地模型:Ollama, LM Studio (通过 OpenAI 兼容接口)

    这意味着你可以用同一个界面,根据不同的任务选择最合适的模型 —— 写代码用 GPT-4,聊天用 Claude,节省成本用 DeepSeek。

    2. 极速响应,本地存储保护隐私

    NextChat 在性能优化上做到了极致:

    • 首屏加载 < 1秒:得益于 Next.js 的 SSR 和静态生成
    • 流式输出:打字机效果,响应无延迟
    • 本地存储:所有对话记录保存在浏览器 LocalStorage,不会上传到服务器
    • Markdown 渲染:支持代码高亮、表格、数学公式(KaTeX)
    • 对话搜索:快速检索历史对话

    3. 对话管理,像专业IDE一样强大

    • 对话分支:可以基于某条消息创建分支,方便对比不同回复
    • 提示词模板:内置多种系统提示词,也支持自定义
    • 对话导入/导出:支持 Markdown、JSON 格式
    • 多会话管理:左侧边栏快速切换不同对话
    • 消息编辑:可以修改已发送的消息重新生成回复

    4. 全平台覆盖,随时随地使用AI

    NextChat 提供了完整的多端支持:

    • Web:响应式设计,手机/平板/电脑自适应
    • macOS:Tauri 打包,原生应用体验(仅 5MB)
    • Windows:同样使用 Tauri,启动快速
    • iOS:App Store 可下载
    • Android:Google Play 或侧载 APK

    5. 高度可定制,打造你的专属AI界面

    • 主题切换:内置浅色/深色主题,支持自定义 CSS
    • 多语言:支持中文、英文、日文等 18+ 种语言
    • API 代理:支持设置自定义底座 URL,解决网络问题
    • 访问控制:可设置访问密码,分享给团队使用
    • 插件系统:支持自定义功能和第三方集成

    🎯 典型使用场景

    场景一:个人AI助手,隐私数据不上云

    用户:注重隐私的个人用户、自由职业者

    痛点:使用官方 ChatGPT 担心对话记录被用于存储训练,且需要付费订阅 Plus。

    解决方案

    • 部署 NextChat 到自己的服务器或 Vercel
    • 接入自己的 OpenAI API Key(按量付费,更划算)
    • 所有对话本地存储,完全隐私
    • 可切换多个模型,根据任务选择最合适的

    成本对比:ChatGPT Plus $20/月 vs NextChat + API 按量付费(轻度使用 < $10/月)

    场景二:团队协作,统一AI工具入口

    用户:小团队、创业公司、教育机构

    痛点:团队成员各自购买 AI 订阅,成本高且无法共享 Prompt 和对话记录。

    解决方案

    • 部署 NextChat 到团队服务器
    • 设置访问密码,团队成员共享使用
    • 使用同一个 API Key 池,集中管理成本
    • 导出优质对话记录,建立团队知识库

    实际案例:一个 10 人团队,使用 NextChat 自部署,每月 API 成本约 $50,人均 $5,远低于每人 $20 的 Plus 订阅。

    场景三:开发者调试,快速测试不同模型

    用户:AI 应用开发者、Prompt 工程师

    痛点:需要在不同模型中测试同一 Prompt 的效果,但官方界面切换麻烦。

    解决方案

    • 在 NextChat 中配置多个模型 API
    • 同一对话中快速切换模型
    • 使用对话分支功能,对比不同模型的回复
    • 导出 Markdown 格式,方便整理测试报告

    🌟 推荐理由

    为什么我强烈推荐 NextChat?

    1. 开源且活跃
    项目在 GitHub 上开源,代码透明,社区活跃。你可以自己审查代码,确保没有后门。而且更新频繁,新模型支持速度快。

    2. 性能极致优化
    作为前端项目,NextChat 的性能优化做到了极致。首屏加载快,流式输出无延迟,即使在网络不佳的情况下也能流畅使用。相比其他 Web UI,NextChat 的响应速度是最快的之一。

    3. 真正的跨平台
    很多项目声称”跨平台”,但实际上只支持 Web。NextChat 提供了完整的桌面端和移动端应用,而且桌面端使用 Tauri 打包,体积小、启动快、内存占用低。

    4. 隐私保护到位
    所有对话记录保存在本地,不会上传到任何服务器。即使你部署在自己的服务器上,只要不配置云端同步,数据就只在用户设备上。对于注重隐私的用户来说,这一点非常重要。

    5. 成本可控
    使用官方 ChatGPT Plus 需要每月 $20,而 NextChat 按量付费,对于轻度使用者来说,每月可能只需要几美元。而且你可以根据不同任务选择不同模型,进一步控制成本。

    我的使用心得
    我自己部署了 NextChat,接入了 OpenAI API 和 DeepSeek API。日常聊天用 DeepSeek(便宜),写代码用 GPT-4(准确),每月总成本不到 $10。界面美观,响应快速,是我每天使用最多的 AI 工具。

    📥 下载地址

    🎬 总结

    NextChat 是一款真正为用户着想的开源 AI 对话界面。它不追求花哨的功能,而是把速度、隐私、跨平台这三个核心需求做到了极致。

    如果你:

    • ✅ 希望拥有自己的私人 AI 助手
    • ✅ 注重对话隐私,不想数据被上传
    • ✅ 需要同时使用多个 AI 模型
    • ✅ 想要降低成本,按量付费
    • ✅ 需要在多个设备上使用统一的 AI 界面

    那么,NextChat 绝对是你的 最佳选择

    5分钟部署,拥有一个完全属于你的AI助手 🚀

  • 全球顶尖科学家签署《IDAIS伦敦宣言》,AI安全威胁已近在眼前

    AI 安全,这次是顶尖科学家自己站出来了

    四月十七日到十九日,四个图灵奖得主凑在一起,在英国皇家学会开了三天会。这件事本身就不太寻常——Yoshua Bengio、姚期智、Stuart Russell、张亚勤,这四个名字任何一个单拎出来都够开一场主旨演讲,现在他们坐同一张桌子旁边,讨论的是同一件事:人工智能驱动的攻击行为,社会有没有准备好。

    这场活动是”人工智能安全国际对话”(IDAIS)的第五场。这个机制是 2023 年成立的,之前走过了牛津、北京、威尼斯、上海,这一站放在伦敦,本身就有信号意义——英国在 AI 安全治理上一直想当”中间人”角色,既不完全跟美国走,也不站中国这边。

    按照当前的技术演进速度,资源极为有限的非国家行为体——从有组织团体到独狼式个人——有望在一年内掌握部分国家级网络攻击手段。

    声明里写了什么,为什么现在发

    这份在伦敦签署的共识声明,核心警告可以浓缩成两句话:AI 正在让”搞破坏”的门槛降得比以前低太多,而全球社会还没准备好应对这个变化。

    声明具体点了两大风险领域。第一个是 AI 赋能的网络攻击。前沿 AI 系统现在已经能在数小时内完成专家团队需要耗费数周才能完成的编程工作,包括发现并利用主流操作系统和浏览器的漏洞。曾经只有资源充足的国家行为体才能搞定的复杂攻击,现在正在以远超以往的速度落入远为广泛的人群手中。

    第二个风险领域是生物滥用。前沿 AI 系统在与病原体设计相关的任务上已经超越博士级专家,使得较低层级的生物能力逐步进入非专业人士的可及范围。声明特别提到:能规划并协调多步骤实验室任务、还能协助构建新型专用生物 AI 模型的智能体,会进一步放大这个风险。

    两大风险领域,声明给出了哪些应对方向

    针对网络攻击风险,声明提出了几个优先事项:保护关键基础设施、建设对前沿 AI 系统网络攻击能力的评测能力、要求开展部署前测试并在必要时延迟更广泛的开放、对具备高级网络能力的前沿 AI 系统实施访问控制、建立信息共享与漏洞披露机制。

    针对生物滥用风险,声明同样给出了优先事项:强化 AI 防护措施以应对高危生物滥用、对前沿闭源模型采取拒答训练和可信访问控制、对前沿开放权重模型开展预训练数据过滤、建设对前沿 AI 系统生物能力提升的评测能力、在核酸合成筛查方面开展国际协调。

    这些措施听起来都很”应该”,但声明本身也坦承:目前的防护手段”远远不够”,基础性的技术与社会防御体系”仍处于萌芽阶段”,且在各司法管辖区之间部署极不均衡。

    中国和美国,都被点名了

    声明有一段话值得单独拎出来说:”主要人工智能司法管辖在协调方面负有特殊责任。这尤其包括美国和中国,以及其他在人工智能开发、部署和评估方面具有重要能力的司法管辖区。”

    这是一份国际科学声明直接点名中美两国在 AI 安全治理上的特殊责任。过去类似声明往往泛泛而谈”国际社会应当……”,这次写得相当具体。

    Yoshua Bengio 一直是 AI 安全领域最敢说的顶尖科学家之一。他牵头起草的《国际 AI 安全报告》在 2025 年发布,当时就有不少政府官员觉得”写得过于直白了”。这次 IDAIS 伦敦宣言的措辞同样相当直接,没有太多外交辞令。

    声明最后还有一段类比,值得所有 AI 从业者认真读一读:”一场严重的人工智能赋能灾难不仅会造成巨大的直接危害,更会摧毁公众对人工智能系统的信任,并使人工智能本可带来的重大社会效益付诸东流。切尔诺贝利事故重创了全球核工业,至今仍让民用核能蒙上阴影,尽管现代反应堆设计已安全得多。”

    把 AI 安全风险和切尔诺贝利相提并论——这份声明的分量,可能比很多人第一眼看到的要重得多。


  • OpenAI现场演示无APP手机:所有界面实时生成,推理甩给云端GPT

    把App图标全删了,手机只装一个GPT

    OpenAI 在 Voice Hack Night 活动上搞了个相当激进的演示。一支团队现场展示了一款为手机打造的”智能体操作系统”原型,整场演示看下来,最让人坐不住的点在于:这部手机上没有一个传统 App。

    所有操作界面都是”即时生成”的。你需要订机票,界面就现场画出一个订票界面;你要查日程,它就给你生成一个日程管理视图。不是从手机存储里调出一个安装好的应用,而是需要什么界面,系统就即时画出来什么界面。

    “UI 即系统”——这套原型的核心设计理念,说白了就是把”打开某个 App 才能完成某件事”这个逻辑整个推翻掉。

    技术实现上,这套原型把任务分成了两层。手机本地跑一个小模型,负责实时生成界面——你说出需求,它立刻把对应的操作界面渲染出来。需要重推理的任务(比如理解复杂语义、联网搜索、生成长回复)则交给云端 GPT 处理。

    现场演示里,开发者全程用语音下指令,完成了好几个任务:订机票、删日历日程、查 AI 新闻、发邮件、列待办清单。整个过程没有点开任何一个 App 图标。

    Sam Altman 的”手机梦”动了真格

    这件事的背景是,OpenAI 一直在悄悄推进它的硬件战略。早有消息说它在做手机项目,最近团队已经扩张到了 200 人,核心成员几乎清一色来自苹果。苹果的设计和工程人才被挖走不少,这本身就很说明问题——OpenAI 要做的不只是一款手机,而是重新定义”什么是手机操作系统”。

    Sam Altman 之前好几次暗示过这个方向。他说过”现在是认真重新思考操作系统和用户界面设计的合适时机”,当时很多人以为他只是在说软件层面的改进。现在看来,他脑子里想的是从硬件到操作系统到交互逻辑的全栈重构。

    时间点方面,最新的消息是 OpenAI 把量产目标定在了 2027 年上半年,比外界之前预期的要早。如果这件事真的发生,它可能会改变过去十五年基本没变过的智能手机交互范式。

    当然,现在还只是原型

    现场的演示是在受控环境下做的,真实场景的复杂度远不止此。语音识别在嘈杂环境下的表现、即时生成界面的响应速度、云端推理的延迟和成本——这些都是要解决的问题。

    但方向本身已经很清楚了:OpenAI 不只想做手机上的一个新 App(比如 ChatGPT),它想做的是让”打开 App”这件事本身变得多余。你在手机上要做任何事,直接说、或者直接想,界面随之生成,任务由 AI 智能体完成。

    这对现有的手机操作系统格局(iOS 和 Android 的双寡头)意味着什么,现在下结论还为时过早。但 OpenAI 把200 个硬件人才的团队攒起来这件事本身,已经值得整个行业认真想一想了。


  • OpenAI在2026年5月这波更新,藏着他们真正的野心

    OpenAI在2026年5月这波更新,藏着他们真正的野心

    2026年4月23日到5月28日这段时间,OpenAI密集发布了一堆更新。表面上看,就是发布了新模型、修了几个bug、加了两个功能。但如果你仔细看这波操作的逻辑,会发现他们真正想做的,是把AI从”聊天工具”变成”能连续工作几小时的数字化员工”。

    GPT-5.5来了,但重点不是”更聪明”

    4月23日,GPT-5.5在API、ChatGPT Plus/Pro、Codex、Copilot中上线。数字看着挺漂亮:支持100万token上下文,SWE-bench Verified得分88.7%,MMLU 92.4%,定价5/30美元每百万token。

    但真正有意思的是5月5日上线的GPT-5.5 Instant,它取代了GPT-5.3 Instant成为所有ChatGPT用户的默认模型。OpenAI内部测试显示,在高风险提示下,它的幻觉率比上一代降低了52.5%。用户标记过事实错误的真实对话中,不准确陈述减少了37.3%。

    GPT-5.5 Instant的输出也更简洁了,相同提示下输出字数减少30.2%。以前那种”好的!我很乐意帮助您…”的废话开头,现在少多了。

    不过有个细节值得注意:52.5%的幻觉降低,是在开启工具使用的高风险提示下测得的数据。如果不开启工具,纯靠模型自己生成长文本,GPT-5.5的幻觉率仍有86%,远高于Claude Opus 4.7的36%。所以,它的事实性优势主要来自工具引导和上下文工程,而不是基础模型本身有多牛。

    Codex CLI偷偷升级成了”持久自主运行时”

    5月7日到26日,Codex CLI连发4个版本。表面上是加了Vim编辑支持、修了几个bug、改进了UI。但5月21日v0.133.0的更新,才是这波操作的核心:目标模式(Goals Mode)默认开启

    这个”目标模式”是干嘛的?简单说,就是你定义一个结果和成功标准,然后Codex可以自己跑几个小时甚至几天,而且进度是跨轮次、跨会话、跨机器持久化的。目前这个功能在CLI、IDE扩展、ChatGPT应用里都已经正式可用。

    这意味着什么?以前你让AI帮你写代码,它写完就完事儿,你得自己测试、自己修bug、自己接着往下做。现在你可以直接甩给它一个目标,比如”把这个项目的所有单元测试覆盖率提升到80%”,然后你就可以去干别的了,它自己会想办法、自己测试、自己迭代,直到达成目标或者卡住。

    Codex目标模式示意图
    Codex目标模式让AI可以自主工作数小时

    其他几个更新也挺实用:v0.131.0支持通用的”@”选择器,可以一次性搜索文件、目录、插件、技能;v0.134.0支持对话历史搜索,还支持按服务器配置MCP环境变量。这些看起来是小事儿,但堆在一起,就是在把Codex从”交互式编码助手”升级成”持久自主运行时”。

    ChatGPT for Excel和Google Sheets,这步棋下得挺大

    5月5日,ChatGPT for Excel和Google Sheets正式发布。这个功能是在Excel和Google Sheets里加个侧边栏,让ChatGPT直接读写你的电子表格。

    有两个概念值得注意:技能(Skills)是可复用的操作手册,教ChatGPT如何处理你这个组织的电子表格工作流、格式和审核步骤;应用(Apps)允许侧边栏连接外部数据源(比如金融数据、内部数据库),让推理基于正确的上下文,而不只是靠公式推理。

    这个动作的信号很清晰:OpenAI不想让ChatGPT只是个”聊天框”,他们想让它嵌入到你的工作流里。Excel和Google Sheets是全世界上亿人的日常工具,把AI直接塞进去,比让你打开个网页聊天的使用频率高多了。

    商业和企业版用户可以免费试用到2026年6月2日,之后就要按套餐积分配额计费了。这个时间节点卡得挺准,给你一个月时间尝鲜,然后就开始收费。

    记忆源(Memory Sources):个性化推荐背后的隐私陷阱

    5月18-20日,记忆源功能向Plus和Pro用户的网页端开放。这个功能的核心是:当ChatGPT给你个性化回答时,你可以查看它引用了哪些来源——过往对话、保存的记忆、自定义指令、文件库中的文件、已连接的Gmail账户邮件。

    每个来源都可以修正、删除或标记为”不相关”。共享对话不包含来源列表,所以共享边界处的隐私是受到保护的。

    紧接着,Google日历集成也来了:连接日历后,ChatGPT可以起草会议议程、推送生日提醒、为即将到来的旅行推荐餐厅。

    这里有一个明显的隐私权衡:你连接了Gmail或日历之后,其中的内容可能会在回答中露出来。如果你忘了已经连接了Gmail,然后问它”我们的Q2战略”,它可能会引用一封你早就忘了的邮件线程。建议定期去审计一下记忆源面板。


    GPT-5.6的影子:到底发没发布?

    5月中旬,有用户发现Codex日志中短暂出现过gpt-5.6的部署映射条目,但很快就消失了,回滚成了gpt-5.5。这个现象符合后端金丝雀测试的特征:把少量生产流量路由到实验版本,测量性能和行为。

    所以,GPT-5.6大概率是在开发中。Polymarket的交易者认为,2026年6月30日之前公开发布的概率是80-89%。但这是博彩市场的信号,不是厂商的承诺。

    OpenAI目前没有发布GPT-5.6的模型卡、API端点、基准测试或者发布日期。所以如果你在规划Q3的路线图,建议先基于GPT-5.5开发,保持模型ID可配置,方便后续一行代码迁移。任何假设GPT-5.6六月发布的路线图,目前都只是押注,不是承诺。

    跟Claude Opus 4.7、Gemini 3.1 Pro比,GPT-5.5赢在哪?

    2026年5月,这三款旗舰模型在Artificial Analysis智能指数上只相差约3分。差异化不再来自原始能力,而是各自的优势领域。

    • GPT-5.5:在代理执行领域领先,Terminal-Bench得分82.7%(Opus 4.7是69.4%),OSWorld 78.7%。它有全新的Codex目标模式运行时和最深入的第一方工具集成。
    • Claude Opus 4.7:SWE-bench Pro得分64.3%(GPT-5.5是58.6%),长文本事实性幻觉率36%(同基准下GPT-5.5是86%)。写作质量更优,更适合风险敏感的企业场景。
    • Gemini 3.1 Pro:纯推理能力领先,GPQA Diamond 94.3%,ARC-AGI-2 77.1%,而且价格更低(输出约12美元每百万token,不到GPT-5.5或Opus 4.7的一半)。

    选型建议挺直白:自主代理和Office嵌入工作流选GPT-5.5,代码审查和高信任长文本选Opus 4.7,成本敏感的大规模场景或多模态视频选Gemini 3.x。

    开发者这个月实际踩了哪些坑

    文档是一回事,生产环境是另一回事。这个月开发者实际踩过的坑包括:

    • Codex 40万 vs API 100万上下文不匹配:给Codex喂接近API 100万限制的提示会报错”超出模型上下文窗口”。Codex内上限需控制在40万token。
    • 推理token计费:思考token按输出费率计费,不是单独的等级,而且计入上下文预算。需要谨慎设置reasoning_effort
    • 长文本幻觉:GPT-5.5长文本事实性幻觉率86%,跟Opus 4.7的36%差距明显。无检索接地的情况下多段落事实生成,是这个模型的最大弱点。
    • Codex 0.134配置文件迁移:旧配置文件会被拒绝,需要显式传入--profile或更新配置文件到新schema。
    • 记忆源隐私:如果连接了Gmail或日历但忘了,相关邮件内容会在上下文相关的回答中露出来。共享前务必审计记忆源面板。

    写在最后

    OpenAI这波5月更新的核心逻辑,其实不是在比谁的模型更聪明,而是在布局”AI能不能真正替人干活”。GPT-5.5 Instant降低幻觉、Codex目标模式支持长时间自主运行、ChatGPT嵌入Excel和Google Sheets——这些都是在把AI从”聊天工具”推向”数字化员工”。

    竞争对手也没闲着。Anthropic的Claude Opus 4.7在事实性和代码审查上仍有优势,Google的Gemini 3.5 Flash在成本和多模态上发力。这场AI战争,已经从”谁的模型分数高”转向”谁能真正嵌入到用户的工作流里”。

    对于开发者来说,现在最务实的策略是:先基于GPT-5.5构建,但保持模型ID可配置。GPT-5.6大概率会在Q3发布,到那时候,一行代码就能切换过去。但在那之前,先把能用的功能用起来,比等着”下一代模型”更实际。

  • AI智能体这事儿,终于从”能聊”变成”能干活”了

    AI智能体这事儿,终于从”能聊”变成”能干活”了

    2026年有个明显的变化,AI不再只是坐在那里跟你聊天、回答问题,而是开始真正动手干活。这个转折点是个叫OpenClaw(龙虾)的开源AI代理框架,它的出现让整个行业都坐不住了,百度、阿里巴巴、腾讯、字节、智谱、月之暗面这些巨头公司一下子全都冲了进来。

    就在这个节骨眼上,5月份国家网信办、国家发展改革委、工业和信息化部三家联合印发了《智能体规范应用与创新发展实施意见》,给这个新兴领域立了规矩。

    智能体到底是个啥?

    按官方说法,智能体是”具备自主感知、记忆、决策、交互与执行能力的智能系统”。说人话就是:以前的大模型像个只会纸上谈兵的军师,你问它啥它都能跟你掰扯半天,但真要它动手干活,它就傻眼了。

    现在的智能体不一样,它能看屏幕、点鼠标、自动执行任务。百度创始人李彦宏说得挺直白:”智能体出圈了,第一次,AI的主角不是模型,而是应用。过去几年竞争核心是模型能力,现在用户真正买单的是’你能不能帮我把事做完’。”

    衡量一个AI平台有没有戏,李彦宏提出要看DAA(日活智能体数),而不是DAU(日活用户数)。意思是,有多少Agent在给人类干活并交付结果,这才是真实的价值。

    技术底座:从”大脑”到”执行”

    要让智能体真正能干活,光有个”聪明的大脑”不够,还得有完整的感知、规划、执行、验证链路。月之暗面(Moonshot AI)的Kimi就是个典型例子,他们自研了大语言模型,总参数量达到1万亿,每次推理时激活约320亿参数,配备了384个细粒度领域专家。

    这个模型用了MLA多头潜在注意力机制,把显存占用降到了传统架构的1/8,还引入了多Token预测目标来提升生成效率。这些技术细节听着枯燥,但实际效果就是:智能体能处理更长、更复杂的任务,而且不容易”掉链子”。

    科研场景:从翻遍文献到一键出报告

    《实施意见》里列出了19个智能体典型应用场景,科学研究排在第一位。2025年7月,上海交通大学和深势科技推出了通用科研智能体”SciMaster”,这个东西能干嘛呢?

    你扔给它一个科学问题,比如”分子动力学在药物筛选中的典型流程是怎样的?”,它能把问题拆成多个子任务,全网搜文献、整合资讯、数据、论文、专利,最后给你生成一份能落地的深度调研报告。

    AI智能体科研应用
    AI智能体正在深度赋能科研场景

    在药物研发领域,智能体能把跨靶点的研究证据整合进知识图谱;在新材料领域,像电解液、固体电解质有机合成这些方向,也有智能体研发辅助产品。据湘汉智库的研究报告,智能体已经深度渗透材料化学、基因组生物信息、生物医学健康等核心科研领域。

    电商场景:”一句话点外卖”成真

    今年初,淘宝闪购跟千问智能体打通了。5月11日,千问与淘宝全面打通,这标志着全球超大规模电商平台与智能体应用的深度融合。

    现在你可以直接跟智能体说”帮我点杯咖啡,不加冰”、”两份米线,其中一份加辣不要豆芽”,它能自动识别你的意图、位置和偏好,然后推荐可下单的商品。这个合作已经覆盖了全国300多个地级市和超过3000个区县,品类涵盖餐饮外卖、超市便利、生鲜蔬果、鲜花绿植、医药健康、手机数码等等。

    有个挺有意思的细节:AI在帮忙选品时,还可能做出”劝退”动作。比如你试图让智能体买个”量子水杯”,它可能会直接给你科普一波,告诉你这玩意儿不靠谱。这种”反销售”功能,倒是挺接地气的。

    金融和教育:秒读财报、梳理文献

    以前券商研究员做行业研究,得泡在海量研报、财报、新闻里,翻遍资料,2-3天才能攒出一份初稿。现在把研究主题丢给Kimi,它立刻自动全网检索、逐页精读财报、提炼核心观点,一气呵成输出结构化分析草稿。原先2-3天的”苦活儿”,现在2-3小时就搞定。

    教育领域也是一样,文献”大山”一直是高校师生的头号痛点。现在只需一次对话,智能体就能一口气读完所有文献,自动完成分类归档、提炼核心观点,梳理出包含研究脉络、争议焦点、未来方向的完整综述框架。博士生过去要熬2-3周才能啃完的文献梳理,现在1-2天就能拿出初版,而且内容更全面、更系统。


    安全问题:智能体也需要”纠偏”

    智能体当然不是完美无缺的,”满嘴跑火车”的幻觉问题、决策跑偏、执行掉链子,都是行业面对的难题。为了给智能体”纠偏”,研发端从技术上打响了”精准纠错战”。

    深势科技的CTO廖若雪说得很实在:科学场景对于事实的准确性和推理的可溯源性要求极高。首先,智能体的知识需要是结构化的,而不是完全依赖模型去记忆知识;其次,智能体的推理过程也要通过特定算法进行置信度校验;此外还需强调验证,关键的科学论断不能只由智能体自行评估,得通过实际运行结果来验证结论是否真实。

    360 AI安全研究院最近发布了《AI安全系列报告》,指出随着智能体加速进入企业办公、研发、运维、客服等核心业务场景,AI安全的核心问题正在从”生成风险”转向”执行风险”。他们提出了两条解决路径:一是用AI加持传统安全防护,提高漏洞发现、入侵研判、样本分析和响应处置效率;二是让不确定性任务在安全约束下执行,让智能体可以做事,但不能越界。

    清华大学文科资深教授、苏世民书院院长薛澜认为,《实施意见》通过设定全链条安全要求,系统性预防智能体技术滥用、决策失控等风险,为智能体技术在全社会规模化应用建立必要的安全信任基础。

    写在最后

    智能体的崛起,既是技术迭代的必然,更是时代发展的趋势。这不是简单的技术升级,而是工作方式、商业逻辑、生活体验的全面重构。政策护航、技术成熟、场景落地,多重力量正推动智能体从行业探索走向深度赋能。

    根据《AI智能体赋能行业决策:趋势与实践白皮书(2026)》,智能体在制造、金融、政务等行业的渗透率已经超过50%。这个数字背后,是无数工作场景正在发生的真实变革。

  • 格莱美CEO亲解:AI写的歌到底能不能拿奖?

    格莱美奖的主办方、录音学院CEO哈维·梅森(Harvey Mason Jr.)最近再次坐到了《The Verge》主编尼尔·帕特尔(Nilay Patel)的播客节目里。距离他们上一次对话已经过去18个月,而这18个月里,生成式AI对音乐产业的渗透速度快到让人反应不过来。

    「AI目前只能基于已有的人类创作做迭代,还无法创造出全新的音乐风格、流派,推动艺术形式向前的核心依然是人类的生活体验和情感表达。」——哈维·梅森,录音学院CEO

    上次聊天的时候,哈维还说”AI不可能写出《Songs in the Key of Life》那种级别的作品”。这次他坦率承认:AI生成的内容质量已经大幅提升,现在很难直接分辨出哪些是人写的、哪些是AI生成的。

    录音室里已经到处都是AI了

    作为资深音乐制作人,哈维说现在流行和R&B的录音session里,AI几乎已经”无处不在”——生成和弦进程、补充鼓点循环、辅助写歌词、制作背景和声、生成小样……甚至电影配乐领域已经有人用AI把单乐器的旋律扩展成完整管弦乐编曲,编曲成本大幅降低。

    一个耐人寻味的矛盾是:民调显示52%的听众不愿意听使用AI辅助创作的音乐,66%的听众表示从未主动听过AI生成的音乐,而且年轻群体对AI的反感程度更高。但行业里几乎所有人都在用AI工具,只是没有人愿意公开承认。

    Suno CEO曾经打了个比方:AI就像音乐行业的司美格鲁肽——所有人都在用,但没人愿意公开说。


    格莱美的评选规则:人类创造力必须占大头

    格莱美奖的核心原则是”奖励人类创造力”,目前规则为:只要作品中人类创造力占比超过”最小必要量(de minimis)”,就可以参与评选,不会完全禁止AI辅助创作的作品。

    具体判定逻辑为:如果AI仅用于辅助(比如生成背景和声、辅助写歌词),人类创作者依然可以凭借词曲创作、演唱等人类贡献的部分参评对应奖项;但如果作品完全由AI生成,或者AI承担了核心创作、表演工作,那就拿不到格莱美的入场券。

    问题是,目前还没有成熟的技术可以精准检测作品里AI的参与比例,评选只能靠申报人自主披露和评审委员会核查。哈维表示音乐人社群的整体诚信度较高,但也承认这套体系并不完美,未来需要技术工具辅助判定。


    监管能跟上吗?

    哈维刚从华盛顿回来。他的判断是:2026年推出全面的AI监管立法的可能性较低,但两党对《No Fakes Act》(保护艺人声音和肖像权)的支持度较高,有望率先推进。

    其他相关法案包括《TRAIN Act》(要求AI公司公开训练数据,允许创作者追讨版税)、《CLEAR Act》(AI透明度法案,要求公开模型训练数据来源)也在讨论中。

    哈维认为平台自主推出的保护措施(比如YouTube的肖像识别系统)是积极的第一步,但更需要全国层面、全行业统一的规则,降低音乐人的维权成本。

  • Meta的AI客服成了黑客工具,奥巴马账号都被劫走了

    Instagram的账号安全体系最近出了个离谱的漏洞——被攻破的不是密码数据库,而是Meta自己引以为傲的AI客服聊天机器人。

    整个攻击流程简单到离谱。黑客只需要打开Meta的AI客服,跟它说”帮我把某个账号绑定的邮箱改成我的”,AI就会照做,还会把验证码发到黑客的邮箱。拿到验证码之后,黑客直接重置密码,原主人就被踢出局了。

    「Apparently this was not a sophisticated hack. But engineers at Instagram going overboard to use AI for everything, and having no incentives for stuff like… security.」——Gergely Orosz,《The Pragmatic Engineer》作者

    为了躲避检测,有些黑客还会配合VPN,把自己的地理位置伪装成目标账号的常用登录地。攻击目标主要是那些”靓号”——单字母、单单词的账号,比如”@h”、”@eggs”这类,当然也包括公众人物和企业账号。

    已经确认的受害者名单

    已经被证实中招的账号里,最离谱的是美国前总统奥巴马的白宫官方Instagram账号@obamawhitehouse。这个账号在5月的一个周日突然开始发布带有伊朗宣传内容的图片。

    除了政治账号,美国太空军首席军士长的账号、美妆零售商Sephora的官方账号也都确认被劫持。安全研究员、逆向工程师Jane Manchun Wong也在受害者之列——她在X平台上说,自己的密码在完全不知情的情况下被改了,账号不断收到密码重置请求,Instagram的iOS端还反复被强制登出。


    根子上的问题

    事件曝光后,Meta通讯主管Andy Stone在X上回应称漏洞已经被修复,公司正在对受影响账号采取保护措施。但事情并没有这么简单。

    《The Pragmatic Engineer》的作者Gergely Orosz指出,Instagram的信任与安全团队在过去几周被严重削弱——不是因为黑客太厉害,而是Meta自己把人裁了,或者把员工调去搞AI标注之类的活儿。

    结果就是一个并不复杂的利用手法,居然能成功。这背后是Meta过去一年的整体节奏:大规模裁员、强推AI工具、把安全团队的人力往AI业务上搬。效率和创新是有了,但地基被掏空了。

    目前Meta表示已经修复了相关漏洞,但这件事留下的疑问是:当一家公司的客服入口变成了AI,而AI又被设计成”尽量满足用户请求”的模式,那么”用户”到底是真人还是黑客,这个边界要怎么划?

    Meta AI客服聊天机器人被利用劫持账号
    Meta的AI客服聊天界面成了黑客攻击入口(图片来源:The Verge)