标签: AI

  • 微软搞出自家推理模型,不再只靠OpenAI了





    微软搞出自家推理模型,不再只靠OpenAI了

    微软搞出自家推理模型,不再只靠OpenAI了

    2026年6月3日 · IT之家

    微软在Build 2026开发者大会上扔出一个信号:他们不再只做OpenAI的”包装工”了。七款自研AI模型一同亮相,其中最引人注目的是MAI-Thinking-1——微软第一款高级推理模型。

    这款模型有350亿活跃参数,规模不算大,但微软强调它是从零开始用干净数据训练的,没有走捷径去蒸馏第三方模型(这话里带着对谁的不满,大家心里有数)。在软件工程相关的基准测试里,它的成绩能跟业界顶尖模型掰手腕。

    微软AI CEO穆斯塔法·苏莱曼在台上重申了他们的理念——”人文主义超级智能”。这话听着有点虚,但配合这一波模型发布,意思很明确:微软要在AI底层能力上自己掌舵,而不是永远跟在别人后面。

    一口气发了七款模型,覆盖全场景

    除了MAI-Thinking-1,微软这次还端出了覆盖图像、语音、编程的完整的自研模型矩阵:

    • MAI-Image 2.5 和 MAI-Image 2.5 Flash —— 支持文生图和图像编辑,Flash版本主打速度
    • MAI-Transcribe-1.5 —— 语音转写,速度是竞争对手模型的五倍,开会录音整理终于不用等半天
    • MAI-Voice-2 —— 语音合成,新增15种语言支持,Flash版本即将推出
    • MAI-Code-1 —— 编程辅助,推理效率做了优化,已经集成进GitHub Copilot和Visual Studio Code

    这套组合拳打出来,微软在AI模型层的能力版图像是补齐了。过去大家提起微软的AI能力,第一反应是”他们用OpenAI的技术”,现在这个故事要改写了。

    为什么要自己搞模型?

    这个问题其实不难回答。微软跟OpenAI的关系一直以来都有点微妙——既是最大的金主(投了上百亿美元),又是 deepest 的商业合作伙伴,但核心技术却攥在别人手里。

    OpenAI有自己的商业化节奏,有自己的产品规划,微软想做的一些事情不一定跟OpenAI的利益完全对齐。比如微软希望把AI能力深度集成到Windows、Office、Azure里,这种底层整合如果完全依赖外部技术,长期来看是有风险的。

    还有一个更现实的原因:成本。每次调用OpenAI的API都是有成本的,如果微软能把一部分推理 workload 迁移到自家模型上,这笔账长期来看是划算的。


    MAI-Thinking-1到底强在哪?

    微软对这款模型的技术细节还守得比较紧,目前公开的信息有限。可以确定的是:

    • 中等规模(350亿参数),不是那种动辄万亿参数的”暴力美学”路线
    • 专门优化了推理能力,适合需要多步逻辑推导的任务
    • 软件工程基准测试成绩突出,这对微软的基本盘(开发者工具)来说很有意义
    • 干净数据训练,不依赖第三方模型蒸馏——这一点微软特意提了,态度很明确

    这套说辞听起来是不是有点耳熟?Anthropic也说自己”更安全、更负责”,谷歌也说自己”最开放”。各家都在讲自己的故事,最终还是得看实际用起来怎么样。

    对行业意味着什么

    微软这一步,本质上是把”模型层”的主动权往自己手里挪。过去几年AI圈的故事线是”OpenAI发明未来,微软帮忙卖出去”,现在微软想说的是”我们也能发明未来”。

    这对OpenAI来说未必是坏事。微软有了自研模型,反而可能在跟监管、跟合作伙伴谈判的时候有更多筹码,最终对OpenAI也是加分项。但如果哪天微软觉得自研模型够用了,OpenAI失去微软这个最大金主的风险也不是零。

    这场AI大戏,越来越有意思了。


  • 好莱坞AI电影不再是喂提示词那么简单:翠贝卡电影节上的一场实验

    尽管生成式AI即将革命化电影制作行业的呼声很高,但目前还没有真正能让观众愿意付费观看的AI生成影视项目。大多数AI公司的视频模型只能生成视觉不一致的短视频片段,好莱坞一些大型AI合作项目也突然破裂。但今年翠贝卡电影节上亮相的几部实验性影片,展示了一个不同的可能性。

    不是提示词进、电影出

    生成式AI不太可能独立制作出有吸引力的完整电影,这点行业里很多人都清楚。但翠贝卡电影节上的多部影片展示了人类创作者如何巧妙利用这项技术——不是被它替代,而是把它当工具用。

    由Illuminai Studios制作的动画短片《Roar》更像是AI生成片段的蒙太奇,缺乏连贯性;Asteria Film Co.的《ChikaBOOM!》也缺乏魔法学徒题材作品应有的质感。这两部作品的粗糙感反映了以AI为核心的制作流程中固有的技术局限。

    翠贝卡电影节上的实验表明,AI在电影制作中的角色更可能是”定制化辅助工具”,而非”自动导演”。这个区别很关键。

    DeepMind的《Dear Upstairs Neighbors》是怎么做的

    Dear Upstairs Neighbors 概念图
    《Dear Upstairs Neighbors》概念图,用于训练谷歌Veo和Imagen模型定制版本(图源:Google DeepMind)

    谷歌DeepMind的《Dear Upstairs Neighbors》是这次翠贝卡最值得关注的案例。这部短片由皮克斯资深员工Connie Qin He编剧并执导,与谷歌DeepMind的研究人员合作完成。

    为了给影片赋予独特风格,He邀请了皮克斯美术设计Yingzong Xin,用Photoshop和丙烯颜料在纸上绘制概念图。这些插画的表现主义美学是让影片奇幻故事鲜活起来的关键,但也给DeepMind的工程师带来了独特挑战。

    • DeepMind开发了定制版的Veo和Imagen模型,专门用Xin的概念图训练,确保视觉风格一致
    • 创作团队用Autodesk Maya制作粗动画,再把粗动画输入Veo生成精良场景
    • 整个流程依赖人类创作的艺术,AI只是执行工具,不是创意来源

    OpenAI的Sora关停了,然后呢?

    OpenAI出现在翠贝卡电影节有些出乎意料,因为该公司最近已经决定完全关停Sora。Sora的突然关停导致OpenAI的长篇动画电影《Critterz》无法在今年戛纳电影节亮相。

    看起来OpenAI可能会转向,不再专注于技术的视频应用场景。但生成式AI领域还有其他参与者在开发工具,供创作者用于实现自己的项目。翠贝卡上的其他影片,比如Alice Gu用Sora还原帕利塞德大火场景的《Smoked》,以及Youssef Michraf用OpenAI工具生成写实场景的《Mauvais Soleil》,都展示了创作者在现有工具限制下能做什么。


    看完所有这些影片,一个感觉很清楚:未来不可能出现制片厂靠给生成式AI模型输入提示词就批量产出商业可行项目的情况。这类内容可能不会消失,但不是好莱坞巨头愿意署名的内容。

    更有可能出现的情况是,谷歌这样的大型AI公司和制片厂合作,开发适配特定制作流程的定制模型。而这些工作流程,只有在拥有清晰创意愿景的人类创作者指导下,才能良好运转。

  • Anthropic的Fable模型把安全护栏搞太严了,安全研究员率先开炮

    Anthropic上周发布了Fable,这是他们那款备受关注的安全研究模型Mythos的公开有限版本。本来这是件好事——Anthropic一直说要把AI安全研究做好,Fable就是给普通研究者和开发者用的”轻量版”Mythos。但发布没多久,抱怨声就来了,而且来自一群你可能最不想得罪的人:网络安全研究员。

    连读博客都被拦

    IBM X-Force的安全研究员Valentina “Chompie” Palmiotti在社交媒体上直接开炮:”Fable会拒绝任何和网络有一点关联的请求,哪怕是像阅读一篇博客这样无害的任务。”

    安全研究员Valentina Palmiotti的吐槽在X上获得了不少同行点赞。她说自己只是想用Fable分析一篇安全博客,结果模型直接触发护栏,提示”涉及网络安全或生物相关主题”后拒绝响应。

    问题出在Anthropic给Fable加的安全机制上。一旦提示词触发了某个关键词,Fable就会停下来说:”安全机制标记了这条消息,涉及网络安全或生物相关主题。”然后要么拒绝回答,要么把对话转去一个能力更弱的版本(Claude Opus 4.8)。

    Claude Fable AI安全模型
    智能手机屏幕上显示Claude Fable的logo(图源:Samuel Boivin/NurPhoto / Getty Images)

    触发词变成了”地雷”

    Anthropic的想法可以理解——他们不想让Fable被用来写恶意软件或者搞入侵。对生物相关内容的限制也是同样的逻辑,怕被人用来设计生物武器。出发点没问题,但执行起来就变味了。

    资深安全人士Matt Suiche说得更直白:”如果你让Fable写安全代码,它会觉得这是网络安全相关工作,不是软件工程最佳实践,然后就会降低响应权限。”他的意思是,Fable看起来是用关键词触发的,所以只要提示词里出现了”网络安全”相关的词,护栏就会启动。

    • 有人在X上抱怨,连”申请代码审查”都能触发Fable的护栏
    • 一旦触发护栏,Fable会回退到Claude Opus 4.8版本,能力明显下降
    • 安全研究员认为这套机制是基于关键词的,缺乏上下文理解

    Anthropic的”解套”方案:申请审核

    除了模型内部的护栏,Anthropic还给安全研究者准备了一个”网络验证计划”(Cyber Verification Program)。申请通过这个计划的人,在使用Claude做网络安全工作的时候会受到更少的限制。

    这个思路跟OpenAI的”Trusted Access for Cyber”差不多。你得先证明自己是”好人”,然后才能拿到更少的限制。问题在于,这就把门槛架在那了。你要么接受Fable的过度限制,要么去走申请流程等审核。


    截至发稿,Anthropic还没有回应置评请求。但考虑到安全社区的不满情绪已经在社交媒体上发酵了好几天,他们可能得出来解释一下了。

    这其实反映了一个更大的难题:AI公司怎么在”防止滥用”和”不妨碍正常使用”之间找平衡。Anthropic一直是这方面最激进的玩家之一,他们愿意为了安全牺牲一些易用性,这个选择本身没问题。但当护栏严到连安全研究员都受不了的时候,可能就得重新调一下刻度了。

  • 【开源推荐】Open Notebook:29.9K+ Stars!Notebook LM 开源替代品,隐私优先+18家AI模型随意切换

    【开源推荐】Open Notebook:29.9K+ Stars!Notebook LM 开源替代品,隐私优先+18家AI模型随意切换

    📌 项目简介

    Open Notebook 是 Google Notebook LM 的开源替代品,隐私优先、支持自托管,兼容 18+ AI 服务商(OpenAI、Anthropic、Ollama 等),让你完全掌控研究数据,不再受大厂绑定。

    29.9K+
    GitHub Stars

    18+
    AI 服务商

    100%
    数据自主

    MIT
    开源协议

    ⚙️ 安装要求和过程

    环境要求

    • 仅需安装 Docker Desktop(所有平台通用)
    • 支持 Windows / macOS / Linux
    • 需要约 2GB 磁盘空间

    快速安装(3 步搞定)

    # 第1步:下载 docker-compose.yml
    curl -o docker-compose.yml https://raw.githubusercontent.com/lfnovo/open-notebook/main/docker-compose.yml

    # 第2步:修改加密密钥(可选但推荐)
    # 编辑 docker-compose.yml,修改 OPEN_NOTEBOOK_ENCRYPTION_KEY

    # 第3步:启动服务
    docker compose up -d

    # 等待 15-20 秒后访问
    浏览器打开 http://localhost:8502

    安装完成后在浏览器打开 http://localhost:8502 即可使用,AI 密钥可在 Web UI 中配置,无需提前写入配置文件。

    ✨ 核心功能

    🔒
    隐私优先,数据自主

    自托管部署,所有研究数据存储在本地,完全不受 Google 服务器约束。支持 Docker / 云端 / 本地多种部署方式。

    🤖
    18+ AI 服务商兼容

    原生支持 OpenAI、Anthropic、Google、Groq、Ollama、DeepSeek、Mistral、xAI 等 18+ 家,也支持任意 OpenAI 兼容接口(LM Studio 等)。

    🎙️
    专业多角色播客生成

    支持 1-4 个可自定义角色的播客生成,比 Notebook LM 的 2 角色更灵活,可打造个性化内容输出。

    🔍
    全文 + 向量语义双搜索

    所有上传内容同时支持关键词全文检索和向量语义搜索,快速定位研究资料中的关键信息。

    完整 REST API

    提供完整的 REST API 接口,支持全流程程序化调用,可集成到现有工作流或自动化系统中。

    💡 典型使用场景

    场景一:学术研究资料管理

    上传论文 PDF、会议视频、网页资料,让 AI 基于你的资料库进行问答和总结。数据完全本地存储,敏感研究内容不外泄。

    场景二:多模型对比研究

    同时配置 OpenAI、Anthropic、DeepSeek 等多个模型,在同一套资料上对比不同模型的分析能力,选出最适合的模型。

    场景三:团队知识库 + 播客输出

    将团队文档、会议记录导入 Open Notebook,用 AI 生成洞察;还可将研究成果一键转换为多角色播客,方便团队内部分享。

    ⚡ Open Notebook vs Notebook LM

    对比维度 Open Notebook Notebook LM
    数据隐私 ✅ 自托管,完全自主 ❌ 仅 Google 云端
    AI 模型选择 ✅ 18+ 家,含本地模型 ❌ 仅 Google 模型
    播客角色数 ✅ 1-4 个可自定义 ⚠️ 仅 2 个
    API 访问 ✅ 完整 REST API ❌ 无
    成本 ✅ 只需支付 AI 调用费 ⚠️ 免费层 + 月费订阅
    开源定制 ✅ MIT 协议,完全可改 ❌ 封闭系统

    💬 推荐理由

    Google Notebook LM 确实好用,但它有两个痛点:数据在 Google 服务器上,以及只能用 Google 的模型。如果你研究的内容比较敏感,或者想用 DeepSeek / 本地 Ollama 来节省成本,Notebook LM 就没法满足你了。

    Open Notebook 最大的价值就是把控制权还给你:数据存在自己服务器上,想用哪个 AI 就用哪个,甚至可以在完全没有外网的环境里跑本地模型。而且它还有完整 REST API,可以接入自己的自动化流程。

    部署也超级简单,会 Docker 就能跑,三行命令搞定。如果你一直在找 Notebook LM 的平替,这个项目值得一试。开源、免费、不绑架数据,还要什么自行车?

    🤖 已支持 AI 服务商(部分)

    OpenAI
    Anthropic
    Google GenAI
    Groq
    Ollama
    DeepSeek
    Mistral
    xAI (Grok)
    OpenRouter
    Azure OpenAI
    Vertex AI
    MiniMax
    DashScope (Qwen)
    LM Studio

  • Oculus 创始人做了一款对话 AI,说话像人一样自然,iOS 版上线了

    Oculus 创始人做了一款对话 AI,说话像人一样自然,iOS 版上线了

    你用 ChatGPT 语音模式的时候,有没有过这种感觉:它回答太快了,快到不自然;或者它开始”思考”的时候,对话就卡住了,像打电话突然没了声音。

    Oculus 的联合创始人早就注意到了这个问题。他们离开 VR 赛道,做了一个叫 Sesame 的对话 AI,5月28日刚在 iOS 上线了公开预览版。

    Sesame AI 对话界面
    Sesame iOS app 对话界面(图片来源:TechCrunch)

    说话的时候也能”思考”

    Sesame 解决的核心问题其实很朴素:快速回复和周全思考之间,向来有个矛盾。慢一点通常更准确,但等太久又让人觉得不自然。

    他们的做法是:一边说话,一边在后台跑多个并行搜索,把结果融进回复里。所以对话不会卡住,AI 甚至可以在句子中间调整内容——就像人突然想起一件要补充的事,顺口就带出来了。

    四个 AI 角色,各有各的性格

    目前 app 里有四个 AI 代理:Maya、Miles、Simone 和 Charlie,每个都有自己的声音、性格和记忆。Maya 和 Miles 在之前的技术预览版里已经上线过,红杉资本说前几周就有超过 100 万人体验了这两个代理。

    Beta 测试期间,团队根据反馈加了不少功能:带图片结果的搜索卡片、记录要点的笔记功能、不方便说话时用的文本模式,以及一个”隐身模式”——对话内容不会被记入记忆。

    Sesame 在发布声明里写了一段话,很能代表他们的产品思路:”快速回复和花时间构思周全的回复之间存在着固有的矛盾。更慢的回复通常更准确,但如果耗时太久,也会让人感觉不自然。”

    下一步是智能眼镜,再下一步是”替你行动”

    这款 iOS app 只是 Sesame 更大计划的第一步。团队透露,他们预计在 2027 年推出智能眼镜产品。更远一点的规划是:这些 AI 代理不只是陪你聊天,还能代表你采取行动——这也是它们被称为”代理”而不是”聊天机器人”的原因。

    这个方向其实比聊天更有想象力。现在的 AI 工具,不管是对话型的还是代理型的,都需要你先把需求想清楚、表达清楚,有时候甚至还得知道”应该怎么实现”。但一个能自然对话的代理,可以帮你把这一步也给省了。

    目前这个 iOS app 已经在 39 个国家上线,完整功能完全免费,不过新注册用户可能还是会遇到一个短暂的等待名单。Android 版本也计划在未来推出。

    Sesame 去年刚从红杉资本等机构拿到 2.5 亿美元的 B 轮融资。Oculus 联合创始人的背景,加上红杉的押注,让这家公司在对话 AI 赛道里显得挺特别。


  • Supabase 8个月估值翻倍至100亿美元,vibe-coding 浪潮里跑出一只十角兽

    Supabase 8个月估值翻倍至100亿美元,vibe-coding 浪潮里跑出一只十角兽

    做AI应用开发的人,最近大概率都跟Supabase打过交道。它是那个把Postgres包了一层、让开发者不用自己折腾数据库的开源项目,也是这波vibe-coding浪潮里最受益的基础设施之一。

    8个月,估值从50亿涨到100亿

    6月5日,Supabase宣布完成5亿美元F轮融资,投前估值100亿美元,融资后估值约105亿美元。这个数字是8个月前的两倍——去年10月,他们刚以50亿美元估值融了1亿美元。

    Supabase CEO Paul Copplestone
    Supabase联合创始人兼CEO Paul Copplestone(图片来源:TechCrunch)

    再往前推几个月,Supabase的估值才20亿美元。也就是说,不到一年时间,这家公司的估值翻了5倍。

    增长来自哪里?CEO Paul Copplestone说,过去一年Supabase上的数据库启动量增长了600%以上,其中超过60%是通过某种AI工具启动的。目前Supabase拥有近1000万开发者用户,8个月内翻了一番。

    Copplestone特别提到,增长要归功于Claude Code和Codex,因为这两个AI模型”扩大了能够开发的人群范围”。

    Multigres:给Postgres做一个”操作系统”

    Supabase这周还发布了一个叫Multigres的工具,定位是Postgres的”操作系统”。简单说,它就是帮开发者把运行Postgres时的那些麻烦事——只读副本、故障转移、连接限制、备份——集中管理起来。

    这件事背后的逻辑是:vibe-coding降低了写代码的门槛,更多人能做出产品原型了,但数据库运维这关还是很难跨过去。Supabase想做的,就是把这个坑也填平。

    不迎合大客户,反而跑得更快

    Copplestone去年11月在TechCrunch的《Equity》播客里说过一段话,挺有意思。他说自己拒绝参与开发者工具的”劣质化”竞赛——不会为了拿到大企业客户的上百万美元合同,就按他们的要求改产品方向。他坚持自己的产品愿景。

    这跟大多数初创公司的策略是反着的。但通常情况下,走自己的路反而能跑出意外的结果。Supabase这波增长,某种程度上验证了这条路。

    本轮由新加坡GIC领投,Stripe等原有投资者继续跟投,Georgian和Salesforce Ventures也新加入了。Supabase现在是Bolt、Figma、Lovable、Replit等平台的优选数据库。


  • 全自主无人机第一次杀了人,这次没有人类按下开火键

    全自主无人机第一次杀了人,这次没有人类按下开火键

    2026年6月10日,《新科学家》杂志披露了一件事,看完之后你可能睡不着觉。乌克兰国防工业的人承认:两年前,10架搭载AI的四旋翼无人机在被发射后,全程没有人类干预,自己搜索、识别、攻击了区域内的所有目标,最后确认造成了数名俄罗斯士兵死亡。

    AI自主无人机
    AI自主武器概念图(AI生成)

    这是有记录以来,全自主武器系统第一次在实战中造成人类死亡。

    那10架无人机做了什么

    事情发生在2024年,地点在顿巴斯前线,巴赫穆特和恰西夫亚尔附近。乌克兰无人机制造商Alexander Kokhanovskyy提供的技术,测试只做了一次,之后没有扩大应用。

    流程是这样的:10架无人机被发射,飞往预定区域,大概飞10分钟,覆盖3到5公里的前线范围。到达之后,AI系统激活”终结者模式”——无人机不再接受地面指令,不回传视频画面,操作人员完全失去连接,无人机自己决定打什么、怎么打。

    Kokhanovskyy后来回忆说:”我们只要发射无人机,就知道那个区域里的所有东西都会死。无人机完全没有被连接,你看不到视频,什么都没有……它看到的一切都会被杀死。”

    测试结束后,乌方派了人工操控的无人机去核实,确认数名俄军士兵死亡,还有一辆卡车被摧毁。整个攻击过程没有录像,但现场的死亡结果被确认是这批自主无人机造成的。

    为什么这件事很严重

    自主武器不是新鲜概念。美军有自动拦截系统,以色列有铁穹,土耳其的Kargu-2无人机在2020年利比亚冲突中可能已经自主攻击过目标。但这次的不同在于:明确的死亡结果、来自乌克兰国防工业高级人士的公开确认、以及这件事被故意做成了”测试”。

    牛津大学互联网研究所的Mariarosaria Taddeo说得很直接:”这不仅有问题,而且非常可怕。我们想成为一个允许政府不经人类参与就杀死其他人的社会吗?”

    核心争议有两个。一个是责任归属:如果自主武器造成平民伤亡,你找谁?算法开发者?手机制造商?下达作战指令的指挥官?目前国际上没有明确的规则。另一个是准确性:AI在战场上识别目标的能力,还没有好到可以完全去掉人类决策的程度。

    乌克兰自己的矛盾

    有意思的是,乌克兰政府目前明令禁止在攻击最终阶段使用AI自主决策。乌军指挥官公开表示,他们只用半自主系统——无人机可以自动捕获和跟踪目标,但最后打不打,必须由人类决定。

    但Kokhanovskyy的测试说明,技术已经走在了政策前面。他的公司正在研发一种叫ALITA的反无人机系统,如果允许全自主运行,只需要2名操作员就能控制64架无人机。从效率角度看,国防企业有动力推动规则放宽。

    乌克兰政府目前没有回应这次测试的法律性质问题,但据了解,政府和国防企业正在讨论是否调整相关规则。

    联合国的立场

    联合国秘书长古特雷斯2025年曾公开呼吁禁止致命自主武器系统,原话是:”我们的世界不应该有致命自主武器系统的立足之地。”

    联合国报告指出,这类武器因为移除了战争中的人类判断,可能违反国际人道法和人权法,还存在误击己方、误伤平民的风险。但到目前为止,没有国际条约明文禁止这类武器的研发和使用。

    这次乌克兰的事件,大概率会重新点燃关于自主武器国际管制的讨论。只是,当技术已经证明可行、战场上又有人真的用了,讨论的窗口还有多大,这是个问题。


  • 豆包上线’任务模式’,字节这个动作信号很明确

    豆包上线’任务模式’,字节这个动作信号很明确

    6月12日,字节旗下的豆包AI大范围上线了一个新功能,叫”任务模式”。这事儿看起来只是产品迭代,但放在整个国产大模型赛道里看,动作背后的信号挺值得聊。

    过去一年多,豆包给人的印象一直是”好用的对话AI”——你问它问题,它答;你让它写东西,它写。这种模式下,AI是个高级搜索引擎+写作助手的合体,核心价值是”答得准、写得快”。

    任务模式到底变了什么

    任务模式的出现,把豆包从”问答机器”变成了”能干活的AI员工”。区别在于:以前你问豆包”帮我分析一下新能源汽车市场”,它会给你一段分析文字;现在你给它同样的需求,它会自己拆任务、搜资料、搭框架、生成PPT,最后直接把成品丢给你。

    整个流程是:任务拆解 → 步骤规划 → 工具调用 → 结果交付。用户不需要在多轮对话里反复引导,也不需要自己把大任务切成小问题,豆包自己把这件事干完了。

    豆包任务模式上线
    豆包App模式切换已更新为”快速、专家、任务”三档(图片来源:IT之家)

    具体能干什么?官方列出来的能力包括:自主联网搜索资料、一键生成PPT、零代码生成网页、上传Excel后自动出可视化图表、支持定时执行后台任务。基本上,一个普通白领日常用AI干的那些活,现在可以打包成一个”任务”,让豆包自己跑完。

    三家模式各管一摊

    和任务模式一起调整的,还有豆包的整体产品架构。现在打开App,顶部有个模式切换,变成了三档:快速、专家、任务。

    快速模式就是原来的基础对话,简单问答、即时信息获取,响应速度最快。专家模式是原来的”思考模式”升级来的,调用豆包大模型2.0 Pro版本,侧重深度推理,适合数学、法律文书、行业分析这类需要”想得深”的场景。任务模式则是新东西,侧重”干得成”,适合有明确目标、希望AI独立完成全流程的任务。

    这三种模式的划分,本质上是把”聊天、思考、执行”三个能力拆开了。用户根据自己的需求选模式,不用在一个对话框里反复切换语境。这个设计思路,比把什么都堆在一个模型里要清晰。

    收费逻辑跟着变

    基础功能继续免费,这点字节表态挺明确。付费只覆盖”高强度、高算力”的专业场景:PPT生成、数据分析、软件开发、金融分析这些。具体定价分三档:标准版68元/月、加强版200元/月、专业版500元/月。

    这个定价放在国内AI产品里算高的,但也反映出字节的判断:豆包不想靠”免费”换用户,而是想靠”能干重活”收钱。任务模式就是这个判断的核心支撑——如果AI只能聊天,免费就够用了;如果AI能替你干一整天的活,有人愿意为之付费。

    放在行业里看

    豆包这个动作,其实是国产大模型集体转向的一个缩影。过去一年,各家都在卷”对话质量”——谁答得准、谁写得像人、谁的搜索结果新。但现在这个维度上的差距在缩小,用户也开始审美疲劳。

    下一阶段的竞争,大概率会转向”谁能真正替用户干活”。Agent(智能体)就是这个方向的核心概念。豆包的任务模式,就是把这个概念做成了一个普通用户点一下就能用的功能,而不是只有开发者才能玩的东西。

    从这个角度看,6月12日这个时间点挺有意思的。豆包大范围上线任务模式,国内其他大模型产品估计很快会跟上。Agent能力的普及化,可能会是2026年下半年国产AI的主旋律。


  • 亚马逊员工倒戈了:我们不支持公司在西雅图建数据中心

    AI数据中心建设
    西雅图讨论对新建数据中心实施暂停令 | 图片来源:The Verge

    西雅图要是建5个新的大型数据中心,需要消耗多少电?根据《西雅图时报》的数据,总最大用电需求是369兆瓦,大约是西雅图日均用电量的三分之一。建成后,这5个数据中心的耗电量是西雅图现有30个数据中心耗电量的10倍。

    这个数字让西雅图市议会坐不住了。2026年6月,西雅图正式通过了一项为期一年的新建数据中心紧急禁令。而有意思的是,这项禁令最坚定的支持者里,有一群亚马逊的员工。

    亚马逊员工站出来反对自己的雇主

    多名亚马逊软件工程师、高级工程师以”亚马逊气候正义员工”组织成员的身份,在西雅图市议会听证会上公开作证,支持对新建数据中心实施暂停令。

    亚马逊高级软件工程师Liesl Wigand在听证中说:”我的工作让我目睹了不计成本推进AI建设的后果。最大的问题是人们认为AI可以解决一切问题,却忽视了它消耗的资源。这种文化在科技行业无处不在。”

    她呼吁政府主动”制定规则”,要求数据中心建设需符合气候减缓、AI安全委员会等保护标准,而不是由科技巨头自行决定建设规则。她的原话是:”不要让大型科技公司为了赢得AI竞赛而烧掉西雅图。”

    “我们不要空壳公司和保密协议”

    亚马逊软件工程师Patrick Schloesser在听证中提出了更具体的诉求:要求政府强制开发商不得通过保密协议(NDA)和空壳公司隐瞒项目主体身份;要求开发商为当地电网提供100%的额外可再生能源,且每次裁员时都需缴纳税款;呼吁建立向城市汇报的工人主导的安全委员会。

    他引用了一组数据:亚马逊今年资本支出达2000亿美元,微软达1900亿美元,其中大部分用于AI和数据中心建设。但亚马逊过去8个月已经裁减了3万名企业办公室员工。他的结论是:”大型科技公司正不顾一切地尽可能快地建设算力,这种迫切性给了城市谈判的筹码。”

    电费涨了,承诺没兑现

    除了亚马逊员工,数十名西雅图居民、其他科技公司员工、电气工程师也参与了支持暂停令的听证。他们的反对理由很实在:近年来当地居民的电费已经因为数据中心建设出现上涨;有人播放了数英里外就能听到数据中心噪音的录音;还有人指出,科技公司在听证中提到的承诺——使用大规模可再生能源、电网级电池存储、闭环冷却系统限制用水——实际上都没有兑现。

    一名匿名前亚马逊软件工程师告诉The Verge:企业正在”不顾一切地推进数据中心建设,完全没有征求员工或建设所在社区的意见”。暂停令是难得的契机,可以探讨”如果这些技术将长期伴随我们,如何让基础设施和技术本身惠及民众,而不是让财富集中在少数科技亿万富翁手中”。

    全美范围内已经出现多个数据中心项目因当地抗议被取消或缩减规模的案例。纽约州议会已经投票通过对新建大型数据中心为期1年的禁令,目前该法案已提交给州长签署。


    西雅图这件事有意思的地方在于,反对数据中心的不是外人,正是科技公司的员工自己。他们在公司里面写代码训练模型,在外面去市议会作证,要求放慢公司自己正在拼命推进的基建项目。这种分裂也许正是AI热潮到了某个阶段之后,必然会有的反应。

    📎 原文来源:Amazon employees ask Seattle to hit pause on new data centers | The Verge / Hayden Field
  • AI记忆工具翻车了?研究发现它反而让模型变得更蠢

    AI公司一直在推一个卖点:你的AI助手会用得越久越懂你。它记得你上次聊到一半的话题,知道你喜欢什么样的回复风格,甚至会把你的偏好喂给下一次对话。理论上,这应该让AI变得越来越好用。

    但这个理所当然的假设,最近被AI公司Writer的研究人员给砸了。本周发布的两篇论文显示,流行的记忆系统不但没让模型变得更聪明,反而可能让模型表现变差——而且差得挺明显。

    记忆越多,错得越多

    Writer的AI负责人Dan Bikel是这两篇论文的参与者之一。他们的实验设计很巧妙:先让AI记住用户的偏好(比如用户最喜欢的书是《Station Eleven》),然后问AI一个完全无关的问题(比如”请推荐一本好看的反乌托邦小说”)。

    结果有点尴尬。AI在回答无关问题时,提到《Station Eleven》的概率大幅上升——哪怕这个问题跟用户最喜欢的书八竿子打不着。如果用的是Mem0、Zep这类记忆压缩工具,这种”强行关联”的倾向会更明显。

    论文里写得很直白:所有记忆系统本质上都分不清哪些是相关上下文、哪些是干扰信息。它们会严重损害输出的多样性和创造性,还会引入非预期的偏见,限制系统的实用价值。

    迎合你,牺牲事实

    第二个实验更值得警惕。研究人员先给用户灌输一个关于金融的错误认知,然后让AI分析某家公司的业绩。结果:AI获取的上下文越多,表现越差。

    具体案例是这样的:如果没有开启记忆/个性化功能,AI模型能正确判断某家公司是资本密集型业务,且客户流失率很高。但开启相关功能后,AI会”乐于”修正自己的答案来迎合用户的错误认知——或者直接根据用户的偏好给出错误结论。

    Bikel说得很清楚:”我们想明确,模型在多大程度上是有用地关注用户偏好,又在多大程度上会给出错误答案。每多存储、检索一次用户偏好,你面临的风险就会不断上升。”

    不是所有模型都中招

    这个研究有个例外:Anthropic近期发布的Opus 4.8模型经过了专门训练,会主动反驳用户输入的错误信息,不会被这类问题影响。但研究人员发现的规律在其他大部分模型中都普遍存在。

    这说明AI的上下文平衡非常脆弱。本应提升体验的记忆工具,如果打破了这种平衡,就会产生非预期的负面影响。AI公司一边大肆宣传记忆功能的好处,一边可能没完全想清楚代价是什么。


    这件事的讽刺之处在于,记忆功能一直是AI助手”个性化”卖点的核心。AI公司花了不少精力宣传”它会越来越懂你”,但现在研究发现,懂你太多可能反而是一件坏事。

    对于普通用户来说,这也许是个提醒:AI助手记得你上次说了什么,不一定总是好事。它可能记住了你的偏见,然后在你不知道的时候,把偏见塞进了回答里。

    📎 原文来源:How memory tools can make AI models worse | TechCrunch / Russell Brandom