分类: AI资讯

聚焦前沿人工智能动态,速览行业热点、技术突破、产业风向与实用 AI 干货,紧跟科技潮流,第一时间掌握 AI 最新趋势。

  • Google把AI翻译做到极致了:Gemini 3.5 Live Translate支持70+种语言实时互译

    Google把AI翻译做到极致了:Gemini 3.5 Live Translate支持70+种语言实时互译

    跨语言沟通一直是人类的梦想。从古代的翻译官,到现代的词典软件,再到AI翻译工具,我们一直在寻找能让人和人之间无障碍交流的方法。Google最早在2006年推出Google Translate,用机器学习做语言翻译。二十年过去,Google现在发布了Gemini 3.5 Live Translate,一个专门为实时语音到语音翻译设计的音频模型。

    Gemini 3.5 Live Translate是什么?

    简单说,它是一个能实时把一种语言翻译成另一种语言,并且用说话人自己的音色、语调、语速讲出来的AI模型。不是那种机械的合成音,而是听起来很像真人说话的翻译。

    Google说这个模型采用了一种”动态处理方式”。传统的轮流式翻译系统通常要等说话者说完后才开始翻译,这导致对话中经常出现尴尬的停顿。Gemini 3.5 Live Translate通过智能地平衡上下文优化与即时输出的需求,将翻译延迟控制在数秒内,减少了对话中的中断感。

    Gemini 3.5 Live Translate实时翻译展示
    Gemini 3.5 Live Translate实现低延迟实时语音互译

    70+种语言,保留说话人音色

    这个模型目前支持超过70种语言的自动识别和翻译。更重要的是,它不仅能生成自然流畅的翻译语音,还能精准还原说话者的语调、语速和音高特征。

    这意味着什么?如果你用英语说话,AI翻译成日语后,不是说日语的”AI机器人”,而是用你自己的”声音特点”说日语。听的人会觉得”哦,他虽然在说日语,但我能感觉到这是他在说话”。

    这种能力背后是Google在语音克隆和音色保留技术上的积累。当然,Google也说这个技术目前还在优化中,不是所有语言对都能做到完美的音色保留。


    低延迟实时翻译,让跨语言对话更自然

    实时翻译的最大挑战不是”翻译得准不准”,而是”翻译得快不快”。如果每次说话都要等三秒钟才能让对方听到翻译,那对话的流畅感就全毁了。

    Gemini 3.5 Live Translate的突破在于它能在”翻译质量”和”响应速度”之间找到平衡点。Google说它的延迟是”数秒内”,这意味着在实际对话中,你不会感觉到明显的卡顿。

    技术上,这得益于Gemini系列的强大多模态能力。它能同时处理音频输入、语义理解、跨语言转换、语音生成等多个步骤,而且是在一个端到端的模型中完成的,不需要把任务拆分成多个独立模块。


    应用场景——从国际会议到旅行沟通

    Google已经宣布把这个技术集成到Google Meet中。想象一下:一个视频会议,里面有说英语、中文、日语、西班牙语的参与者。每个人说自己的语言,其他人能实时听到用自己语言翻译的内容,而且延迟很低,对话能自然进行。

    除了会议场景,这个技术对旅行者也很有用。假如你去日本旅游,不会说日语,但有了支持Gemini 3.5 Live Translate的工具,你可以直接和餐厅服务员、出租车司机、酒店前台对话,AI会实时帮你翻译。

    当然,目前这个技术还在早期阶段。Google说它会逐步向更多用户开放,首先在Pixel设备和Android系统中上线,然后再推广到iOS和其他平台。

    AI翻译这几年进步很快。从最早的基于词典的逐词翻译,到神经机器翻译(NMT),再到现在的大语言模型驱动的实时语音互译,我们离《银河系漫游指南》里的”巴别鱼”(一种能实时翻译任何语言的生物)越来越近了。Gemini 3.5 Live Translate不一定是最完美的AI翻译工具,但它代表了这个领域的一个新里程碑。

  • iOS 27的AI藏在哪?苹果把这10个日常功能都悄悄升级了

    iOS 27的AI藏在哪?苹果把这10个日常功能都悄悄升级了

    WWDC 2026上,苹果把大部分舞台时间给了Siri AI重构和Apple Intelligence的宏大叙事。但如果你仔细翻翻iOS 27的更新列表,会发现苹果其实把AI藏在了你每天都会用到的那些小功能里。不是那种”我们革命性地重新定义了XX”的夸张宣传,而是润物细无声地让事情变得更顺手。

    Siri的彻底重构——从语音助手到AI代理

    这是iOS 27最重大的AI升级。Siri不再是那个偶尔用来设闹钟、查天气的语音助手了。苹果对其进行了2011年发布以来最彻底的重构,把它变成了一个真正意义上的AI代理。

    新Siri能理解屏幕上的当前上下文内容。比如你在微信聊天里提到周末要去某家餐厅,Siri能自动识别这个信息,主动问你要不要加到日历里,甚至帮你查那天的天气。

    更厉害的是跨应用搜索能力。Siri现在能搜索消息、相册、邮件、日历,然后把信息串联起来。你问”上周和老王讨论的那个项目进展怎么样了”,它能自动找到相关的消息记录、邮件往来、甚至Notes里记的会议要点,然后给你一个完整的摘要。

    跨设备连续性也是个亮点。在iPhone上和Siri的对话,切换到iPad或Mac上能无缝衔接,不会丢失上下文。这意味着可以在手机上开始一个复杂任务,然后在电脑上继续完成。

    当然,苹果没忘记自己的”隐私优先”策略。Siri的AI处理尽量在设备端完成,实在需要上云的,也是用私有云基础设施,而且承诺第三方审计。

    iOS 27 AI功能展示
    iOS 27的AI功能深度整合到日常应用中

    Apple Wallet的智能账单分割

    这个功能特别实用。iOS 27里的Apple Wallet可以用iPhone摄像头扫描收据,然后AI自动识别上面的每一项,计算出每个人应该分摊多少(包括税费和小费),然后直接通过Messages或Wallet完成还款。

    想象一下:聚餐后拿到收据,打开Wallet拍个照,勾选朋友吃了哪些菜,系统自动算出每个人的份额,然后直接发Apple Cash请求给每个人。整个过程不到一分钟。

    这个功能由Apple Intelligence驱动,背后是OCR(光学字符识别)和自然语言处理的结合。苹果说它最多能同时处理10个人的账单分割。


    iOS 27的AI修图功能

    苹果的AI修图工具这次终于追上了Android阵营。iOS 27带来了三个核心AI修图功能:

    • Clean Up(去路人):升级到了更强大的云端模型,能更精准地识别照片里不想要的元素,然后无缝移除。
    • Extend(扩展照片边缘):AI能自动”想象”照片边缘之外的场景,然后把照片向外扩展。
    • Spatial Reframing(空间重构):AI能模拟相机移动,重新构图。

    Apple Music的AI歌词翻译

    对于喜欢听外文歌的人,这个功能很贴心。iOS 27扩展了”Lyrics Translation”功能,新增支持法语、德语、意大利语、韩语、西班牙语、日语到英语的翻译。

    “Lyrics Pronunciation”功能更复杂。它能显示音译歌词(用拉丁字母标注非拉丁字母语言的发音),帮你唱对那些不会说的外语歌词。


    苹果做AI的方式,和OpenAI、Google不太一样。它不急于把AI包装成一个独立的”产品”,而是把它当成一种”能力”,悄悄注入到每天都在用的那些功能里。你不一定能感受到AI的存在,但会觉得”哎,这功能怎么突然变好用了?”

  • 你在AI模型里的”存在感”是多少?这个网站让你查自己在大模型里的分量

    你在AI模型里的”存在感”是多少?这个网站让你查自己在大模型里的分量

    你有没有试过在Google上搜自己的名字?以前这会让你看到自己的社交媒体、工作信息、也许还有一篇你忘了的多年前写的博客。但现在,越来越多的人发现:ChatGPT或者Gemini告诉他们关于自己的事情——而且有时候,那些事情是错的。

    两个前OpenAI员工Thomas Dimson和Joey Flynn(他们是在OpenAI收购他们的设计工作室Global Illumination时加入的)最近做了一个网站,叫In the Weights。这个网站干的事说起来有点滑稽:它帮你查,你在各个AI大模型里的”存在感”到底有多强。

    “权重”里的存在感,被量化成了一个分数

    这里的”权重”(weights)指的是AI模型训练完成之后,那些决定模型输出结果的数值参数。In the Weights网站宣称,它衡量的是”一个模型在不用网络搜索等工具的情况下,能多准确地回忆起某人”。

    具体做法是:向不同的模型(包括Grok、Gemini、多个版本的GPT、Claude,还有一些不太知名的模型)提问,问题类似于”某某是谁?给出最多10个结果,每个附一段简短描述和一个置信度。”然后网站把相似的描述聚类,给出一个”强度分数”。

    In the Weights网站界面
    像素风格的排行榜界面,灵感来自任天堂经典游戏

    《小鬼当家》主角居然排第一

    写这篇文章的时候,排行榜还在实时变动。目前排在第一位的是《小鬼当家》的主演Macaulay Culkin,强度分数988。歌剧演唱家Luciano Pavarotti紧随其后。这个排行榜本身就挺能说明问题的——哪些人”值得”被AI记住,似乎和名气、文化影响力有直接关系。

    本文原作者Anthony Ha的分数只有641,排在前6%。刚看到的时候还有点小得意,直到发现好几个同事的分数都比他高。当然,AI批评者Anthony Moser不客气地说,这玩意儿”本质上就是让13个聊天机器人告诉你关于你自己的事”。说得也没错。

    为什么有人在乎这个

    Dimson说,他做这个网站的灵感来自一个观察:2026年,在Google上搜自己已经不是那个”标准动作”了,越来越多的人从聊天机器人那里了解一个人。而”那么多人的生命,都以某种方式被编码进了AI大脑的浮点数字里”。

    他觉得,被AI”记住”这件事,触及了一个更深的焦虑——在AI越来越了解我们的时代,我们怎么确认自己还”存在”?把这个存在感量化成一个分数,放在一个像素风格的排行榜上,这本身就很2026年。


  • 《大西洋月刊》把AI训练用的音乐全扒出来了,你可以在线搜索

    《大西洋月刊》把AI训练用的音乐全扒出来了,你可以在线搜索

    用AI生成一段音乐,旋律听起来还挺像那么回事——但你知道这段旋律”学”过哪些歌吗?《大西洋月刊》的记者Alex Reisner最近干了一件事:他把AI音乐训练数据集扒了个底朝天,然后把结果做成了可以随便搜的公开数据库。

    1200万首歌,安静地躺在训练集里

    Reisner一共找到了四个数据集,其中两个大得离谱——一个里面有1200万条音轨,另一个有900万条。剩下两个小一些,但各自也有超过10万首歌。这些数据集在网上的下载量已经达到几千次,虽然没法精确知道是谁在用,但Google和Stability AI都已经在研究论文里承认,他们用过其中的数据。

    问题来了:这些歌是怎么进去的?有些来源——比如Free Music Archive——虽然允许个人免费试听,但商业使用是要授权的。更麻烦的是,其中三个数据集本质上是一堆YouTube或Spotify链接的列表。AI开发者用自动化工具把这些音频扒下来,而这些工具可以绕过登录、广告、以及本该给创作者带来收入的机制。这直接违反了平台的服务条款。

    AI音乐训练数据可视化
    AI训练数据的透明度问题日益受到关注

    Lady Gaga和Radiohead都在里面

    数据集里的名字读起来像一张超级音乐节阵容。Lady Gaga、Fred Again..、Radiohead、Aphex Twin、Wu-Tang Clan、Bruce Springsteen,还有实验音乐人Hainbach——都可能被塞进了某个AI模型的”记忆”里。你自己可以去《大西洋月刊》的”AI Watchdog”网站搜,看看你的歌或者你喜欢的音乐人是不是也在名单上。

    值得注意的是,这不只是音乐的问题。AI训练数据的来源透明度,已经成为整个行业绕不开的议题。你用的AI助手,可能”听过”你最喜欢的歌。

    为什么这件事很重要

    这背后的核心矛盾其实很简单:AI公司需要海量数据来训练模型,但音乐人(尤其是独立音乐人)并没有授权让自己的作品被这样使用。目前这事儿还处在法律的灰色地带,但随着AI音乐生成工具(比如Suno和Google的Lyria)越来越好用,版权诉讼只会越来越多。

    Reisner做的这个数据库,至少让”训练数据里到底有什么”这件事变得可以查证。透明度是第一步,接下来怎么走,还得看法庭和立法者怎么出牌。


  • AI 视频进入「可玩」阶段:阿里这套世界模型,把观众变成了主角

    过去一年,AI视频生成赛道卷得热闹,Sora、Runway、Pika们轮流登场,画面越做越精致。但用多了你会发现一个共性问题:它们都是「单程票」——你写一段描述,模型渲染出一段视频,生成完就完了,你只能看,不能跟画面里的世界互动。

    HappyOyster 1.0 世界模型交互演示
    HappyOyster 1.0:从「看视频」到「进世界」

    从「生成视频」到「生成世界」

    阿里 ATH 团队本周发布的 HappyOyster 1.0(快乐生蚝),做的不是一段好看的视频,而是一个完整可演绎、可探索、可互动的数字世界。画面生成出来的那一刻,体验才刚开始——你可以一边看一边下指令,世界实时反馈并持续演化。

    它主打两大模式。Adventure(世界探索)让你亲自下场当主角,用键盘操控角色在 AI 生成的世界里移动、跳跃、攻击;Directing(实时导演)让你站在世界之上当导演,用自然语言描述剧情,世界实时推演你想要的故事。

    “以前你是观众,现在你成了世界的主人。”

    世界模型到底特殊在哪?

    要理解 HappyOyster 的突破,得先搞清楚「文生视频」和「世界模型」的根本差异。文生视频做的是文本→视频的单向条件映射,你输入一段描述,模型一次性离线渲染出一段固定的像素序列,生成完就结束了。

    而世界模型学的则是当前状态 + 用户动作 → 下一个状态的转移规律。这就要求模型同时具备三重能力:物理规律的隐式建模、长程因果链路的追踪、外部干预的即时响应。画面里有什么,你就能玩什么——有马车自动解锁骑马,有汽车触发鸣笛和车灯。

    • 闭环世界状态建模:把世界状态压缩成「潜状态摘要」(Latent State),在生成链路上递归传递,支撑长程一致性。暂停、回溯、分支叙事,本质上都是在某个时间点把「摘要纸条」存一份副本。
    • 内生一致性:给每个角色、物品、场景元素都发了一张「身份卡」,不管镜头怎么切、角色怎么转身,模型每次生成新画面时都会对着身份卡检查,保证角色不变样不变形。
    • 开放因果动作空间:把动作指令和自然语言放进同一个语义接口,你说「骑上那匹马」,模型自己推演出上马的完整动作序列和马开始跑的物理反馈。
    • 长时序音视频协同:音频和视频在同一个世界状态下联合解码生成,不是先出画面再配音,脚步声跟着你走、攻击音效跟着动作来。

    一旦世界可交互,哪些行业会被改变?

    游戏行业可能是最快吃到螃蟹的。不用搭建庞大的美术资产库、配置复杂的物理引擎,给 HappyOyster 1.0 丢一张概念图,很快就能跑出一个具备物理反馈和 NPC 交互的可玩场景。剧情可以分叉出十条故事线,观众自己选走向——这可能催生一个全新的互动内容业态。

    文旅景区做虚拟漫游、博物馆做沉浸式历史还原、教育领域做可交互的历史场景重现……这些场景都可以用世界模型给用户带来全新的沉浸式体验。阿里这次不只是做产品,还在和南京大学共建世界模型评测基准——承担起定义赛道标准的责任。

    现在 HappyOyster 1.0 已经正式上线,用手机号注册就能玩。API 也计划在近期开放。以后谁还满足于只视频啊——大家都想亲自进到世界里去。

    📎 原文来源:量子位 | 阿里 ATH 团队发布 HappyOyster 1.0
  • GPT-5.4 自己设计实验改进药物合成,AI 自主科研走到哪一步了?

    GPT-5.4 自己设计实验改进药物合成,AI 自主科研走到哪一步了?

    OpenAI 和波兰化学AI公司 Molecule.one 本周公布了一项引人注目的研究成果:GPT-5.4 在接入化学AI代理 Maria 之后,近乎自主地改进了药物合成中一个长期令人头疼的反应——Chan-Lam 偶联反应。说”近乎自主”,是因为 AI 负责出主意、设计方案、解读实验数据并提出下一步动作,而人类化学家仍在高层引导、纠正细节和复现关键实验等环节不可或缺。

    一个让化学家头疼的反应

    Chan-Lam 偶联是化学家用来搭建碳氮键(C-N)的经典反应,而碳氮键在药物分子里几乎无处不在——抗癌药、抗菌药、利尿剂里都有它的身影。问题在于,这个反应对底物的”脾气”很挑,尤其是用伯磺酰胺(primary sulfonamide)和硼酸去做偶联的时候,产率历来很低,经常让化学家不得不放弃一个有希望的分子,或者花大力气另找合成路线。

    OpenAI 和 Molecule.one 的研究团队给 GPT-5.4 下了一道很开放的指令:去改进一类重要的反应。至于怎么改、改哪个,全权由 AI 自行判断。于是系统开始自主运转——它生成研究方案、设计并执行实验、分析数据、再据此提出下一轮该尝试什么。

    “这是有机化学领域首个由 AI 近乎自主完成的发现。”——Molecule.one CTO Stanisław Jastrzębski

    AI 提出了一个连人类都意外的方案

    在 GPT-5.4 生成的众多方案中,编号 OAI-M1-03 的那个提出了一个让人类化学家都感到意外的思路:GPT-5.4 自己判断伯磺酰胺是一类又难又有价值的底物,然后提出——用 TEMPO 这种温和的氧化剂当添加剂,也许能改善这个反应。

    这个建议让化学家们眼前一亮。随后的测试里,十种氧化剂中正是 TEMPO 跑出了最好的结果。更妙的是,系统后续还发现 TEMPO 可以换成便宜得多的类似物 4-hydroxy-TEMPO,而性能几乎不打折。

    整个过程中人类做的最大一次干预,是叫停了用 DMSO 当溶剂的方案——因为化学家担心它会和用作对照的强氧化剂起反应。这类判断目前仍需要人类把关,但 AI 已经能决定”下一步试什么”,这在科学研究中是一个重要的里程碑。

    数据说话:AI 的实验量有多大?

    • 两轮实验下来,Maria 一共跑了 10080 个反应——这比一个化学家每天做三个、连做十年还要多。
    • 优化后条件下,测试的硼酸中有 88% 产率提升,磺酰胺中有 83% 提升。
    • 平均产率从 16.6% 涨到 25.2%。
    • 产率超过 30% 的反应占比,从 15.6% 提高到了 37.5%。
    • 人类化学家手工验证了 14 对底物中的 11 对,产率确实提高了,其中 8 对涨了两倍以上。

    “近乎自主”,而非”完全自主”

    整个实验过程历时两个半月——从 3 月 4 日发出第一个 prompt,到 6 月 4 日把 OAI-M1-03 的结果交给外部专家验证。其中两个半月在做实验,最后半个多月是人类化学家撰写和核实结果。

    OpenAI 在声明中特别强调,这套流程仍然是”近乎自主”(nearly autonomous)而非”完全自主”。理由很明确:人类化学家始终在做重要决策。模型负责提出关键的研究想法,人类则提供高层引导和风险判断、纠正实验细节、帮忙备料配试剂,还亲手重复了关键实验。在这个过程中,人的判断仍然是不可或缺的。

    那么,AI 实现药物全自动研发还有多远?从这次的成果来看,前沿模型已经能够支持科学研究的大部分环节——审查文献、提出假设、设计实验、解释数据,以及发现人类专家可以验证的成果。但”完全自主”的药物研发,至少在今天,仍然是一个正在靠近而尚未抵达的里程碑。

    📎 原文来源:OpenAI 官方博客 | 中文编译:量子位
  • 当AI代理开始「成群结队」地上网,Google DeepMind说:得先研究一下会出什么事

    当AI代理开始「成群结队」地上网,Google DeepMind说:得先研究一下会出什么事

    一个人干坏事,和一万个人同时干坏事,完全是两个概念。AI代理也是一样。Google DeepMind的AGI安全与对齐研究负责人Rohin Shah最近在担心一件事:当数以百万计的AI代理同时在线、互相交互的时候,会发生什么?

    这个问题听起来有点遥远,但Shah说:还有几个月就来了。他没有危言耸听——AI代理正在从「演示视频」走向「真实部署」,而当数量突破临界点,行为模式可能完全不一样。

    1000万美元,买一个研究领域

    为了未雨绸缪,Google DeepMind在2026年6月联合几家机构宣布了一笔1000万美元的研究资金,专门用来研究多智能体系统的安全风险。

    跟Google DeepMind一起出钱的包括:施密特科学基金会(Eric Schmidt夫妇的慈善基金)、英国政府的「登月局」ARIA、非营利研究组织Cooperative AI Foundation、以及Google的慈善部门Google.org。

    AI多智能体系统安全概念图
    多智能体AI系统的安全风险正在成为新的研究前沿(配图由AI生成)

    Shah说,这笔钱的主要目的是「启动学术界对多智能体安全的研究」。工业界实验室忙着做产品、冲估值,没人仰望星空——学者的优势是可以想得很远,包括那些工业界「脑子里排不上号」的问题。

    「主要问题是,多智能体安全几乎还不是一个真正的研究领域。我们希望它成为。」
    ——Rohin Shah,Google DeepMind

    风险到底是什么?

    Shah和施密特科学的James Fox说,最主要的担心是:现在互联网上已经有的坏事——诈骗、网络攻击、恶意软件——到了AI代理时代,会被「超级加倍」。

    比如「提示注入」(prompt injection):如果一个AI代理被喂了恶意指令,它就会变成一台自动行动的恶意软件,而且比任何人类黑客能干的都多。Fox说:「我们的数字公共空间是社会运作的基础,你真的不希望它陷入无政府状态。」

    为什么这个问题特别难?

    你不能用研究单个代理的方法来研究多代理系统。Fox说,基于LLM的AI代理不总是理性行动,而多代理系统的复杂性来自于「海量交互同时发生」。

    唯一理解它的方法,是在沙箱里做逼真的模拟。有些研究者(包括Google DeepMind的一个团队)甚至认为:通用人工智能(AGI)可能不是来自于单个超级模型,而是来自于一种「代理蜂巢思维」——多个代理的能力加起来大于部分之和。


    不是只有Google在担心

    Google DeepMind不是唯一一家对自己的技术感到担心的AI巨头。几周前,Anthropic发布了基于「零信任」原则的AI代理部署指南——零信任是网络安全里的一个思路,核心假设是:系统一定有漏洞,代理可能是攻击者,入侵一定会发生。

    以色列特拉维夫网络安全公司Akeyless的联合创始人兼CTO Refael Angel说:「过去所有的安全方法都假设机器是人类写的软件,走固定路径、做固定事情。代理打破了所有这些假设。它会推理,它会即兴发挥,它可能被人用一句话劫持。」

    Angel欢迎这笔1000万美元的研究资金,但他提醒:安全研究者容易沉迷于「极端假设场景」,而忽视了已经发生的无聊问题。这也是Shah他们在努力平衡的——既要看远,也要看准。

    我们还有多少时间?

    Shah说,我们还有「几个月」的时间,代理就会在经济中大规模部署,到那时潜在风险就成了真正的问题。他想跑在这个时刻前面。

    Fox补充说:几年前还是假设的风险,现在已经很真实了。「未来来得比预期快。」

    1000万美元,对于Google DeepMind自己的研发预算来说,是九牛一毛。但这笔钱的意义在于:把多智能体安全这个问题,从工业界的「顺手看看」变成学术界的「正经研究领域」。当AI代理开始成群结队地上网,我们最好已经想清楚会发生什么。

  • 数据中心不想等电网扩容了,它们开始学会「看脸色」用电

    数据中心不想等电网扩容了,它们开始学会「看脸色」用电

    当几百万英国人同时在世界杯期间烧水泡茶,电网会经历什么?答案是:一场突如其来的用电高峰。但2025年12月的一次模拟实验显示,如果伦敦的一台数据中心当时装了一款叫Conductor的软件,它会在千钧一发之际自动给芯片降速,把电让出来。

    这听着像科幻,但已经是真实产品在测试了。Emerald AI在做的事很简单——让数据中心变成电网的「好邻居」,而不是永远张嘴要电的贪吃蛇。

    等等,电网怎么了?

    AI boom来了,数据中心想上网,电网说:排队吧您内。美国最大电网运营商PJM处理新发电项目并网要8年。数据中心盖好了,电接不进来,这生意怎么做?

    传统思路是:建更多电厂。xAI在孟菲斯搞燃气轮机,微软和Oracle提议搞超大型离线数据中心。问题是:燃气轮机不够用,新的电厂环评和建设又要好几年。这条路走不通。

    数据中心电网灵活性示意图
    科技公司在数据中心能源问题上开始寻找新出路(配图由AI生成)

    灵活性:给电网留点余地

    有一派人说:换个思路。电网其实有闲力,只是你不会用。2025年Duke大学的研究发现,如果数据中心愿意一年只让电0.25%的时间(大约22小时),美国电网能多挤出76GW——够到2030年的数据中心增长需求了。

    普林斯顿大学和两家电网现代化公司给PJM区域做了个测算:一个500MW的数据中心如果能做到一年99%以上的时间不拉闸,并网速度可以快3到5年。这就是「灵活性」(flexibility)的核心逻辑。

    数据中心不再要求「随时给我满电」,而是跟电网商量:「我可以在用电高峰时少拿一点,你让我早点并网行不行?」

    几家公司在做的事

    Emerald AI的产品Conductor就是干这个的。它在2025年12月做了那个「英德足球赛」模拟:AI程序在几百万个电热水壶同时启动的瞬间,给数据中心发指令降速。CEO Josh Parker说:「AI工厂的灵活性,是AI需求和电网局限之间的桥梁。」

    GridCare的思路更激进一些。这家硅谷创业公司用生成式AI给电网建「数字孪生」,把发电厂、输电线、变电站、家庭用电全部建模,然后找到在不牺牲可靠性的前提下解锁容量的方案。CEO Amit Narayan打了个比方:电网的平均利用率只有30%左右,如果你是个航空公司,飞机利用率30%,你不会去买新飞机。

    灵活性并网的好处

    • 电网更稳定。数据中心在用电高峰时让电,能避免拉闸限电。
    • 少建电厂。如果现有容量能挖潜,就不需要为了AI狂建天然气电厂。
    • 电费可能更低。Duke大学2026年2月的研究发现,灵活性能让电价降低0.5%到2.8%。

    为什么科技巨头们还在搞燃气轮机?

    听起来很美好,但为什么微软、Oracle、xAI还在搞离线电厂和燃气轮机?一个字:惯性。电网的设计哲学是「保守」——必须按照最高需求来建设,宁可闲置也不能掉链子。

    数据中心的传统做法也是「我要全功率」,因为每一秒的算力都可能意味着钱。xAI在孟菲斯的做法就是典型案例:等不了电网扩容,直接把燃气轮机用卡车拉过来。结果?当地居民和监管机构不干了,排放和污染问题一堆。

    但变化在发生。Emerald AI的首席科学家Ayse Coskun观察到一个趋势:「运营商越来越愿意用某种程度的灵活性,来换取更快的并网速度。」

    这不是一个「技术能不能做到」的问题,而是一个「谁先迈出第一步」的问题。2026年,这笔账会被算清楚的。

  • AI帮人打官司,法院先迎来了「AI幻觉」洪水

    AI帮人打官司,法院先迎来了「AI幻觉」洪水

    AI帮人打官司,法院先迎来了「AI幻觉」洪水

    科罗拉多州联邦地方法官Maritza Braswell,大部分时间在chambers里翻阅那些没有律师代理的当事人提交的文档。很多人请不起律师,还有些人的案子太弱或者太小,没有律师感兴趣。她仔细读每一份,知道独自走进法庭有多吓人。

    最近,跟全美很多法官一样,她注意到这类申请明显增加了。一项研究了2005年到2026年450万联邦民事案件的研究显示,没有律师代理的人提起的诉讼占比从2022年的11%增加到了2025年的16.8%。

    AI辅助法律文书
    越来越多没有律师代理的当事人开始使用AI来起草法律文书

    Braswell法官把这种跳跃归功于AI。”我确实把这归因于AI,因为我看到了AI的使用,”她说。作为一位懂技术的法官,她也用AI来审查法院文件,已经学会了识别大语言模型是怎么写作的。

    “但我确实看到了起草得更好的诉状,”她说。”虽然AI似乎在扩大诉诸司法的机会,但它似乎并没有提高人们胜诉的机会。”

    AI给诉讼踩了一脚油门

    为了测试AI是否真的在推动没有律师代理的人提起诉讼,这项研究的作者将1600份随机抽样的法院文件喂给了Pangram——一个商业AI文本检测器。被标记为包含AI生成文字的份额从2023年的1%上升到了2026年的18%。

    对Braswell法官来说,这不一定值得担心。虽然AI辅助申请的激增可能增加了法官的工作量,但她和许多其他法官发现,这些案件更容易裁决,因为AI正在帮助没有法律培训的人更好地阐述他们的论点。

    没有律师的人写的法庭文件是出了名的难懂。有些是手写涂鸦,接近胡言乱语,法官要花一段时间才能解码。无论多么晦涩,法官都必须善意地阅读它们。

    这些天,Braswell法官一直在比当事人自己写的申请更快地处理那些由AI起草的动议。”我必须非常小心,因为其中一些包含幻觉和错误,但有了他们的AI辅助,我通常能比没有时更好地理解他们在争论什么,”她说。

    聊天机器人-客户特权

    康涅狄格州联邦地方法官William Garfinkel,在法官席上已经30年了,思考过各种各样关于律师与客户关系的问题。最近,他一直在想,人们与提供法律建议的聊天机器人的对话是否应该享有特权,就像他们与律师的对话那样。

    “你可以提出一个很好的论点……与Claude或ChatGPT或Grok等大语言模型的对话应该得到某种保护,”他说。

    法院已经开始认真思考这个问题。今年2月,密歇根州的一家联邦法院裁定,一个没有律师代理的人为准备她的案件而与ChatGPT的对话是”工作成果”——受法律保护的、屏蔽对方获取的法律工作。

    但在同一天,纽约的一家联邦法院认定,一名刑事被告使用Claude生成的文件既不享有律师-客户对话特权,也不享有工作成果保护。法院辩称,Claude不是律师,用户对它的通信”没有合理的保密期待”。


    没有脉搏的 malpractice

    一些法官也在想,聊天机器人是否像律师一样,有责任提供好的法律建议。加州联邦地方法官Allison Goddard注意到,没有律师代理的人在试图评估案件价值时,经常从ChatGPT那里得到错误的建议。

    “你从哪里得到你想拿70万美元的想法?你去问ChatGPT了吗?”Goddard法官问一名在商店里滑倒的原告。然后她带着当事人过了一遍法律,解释为什么ChatGPT是错的,并建议一个更低的金额。

    然后是当聊天机器人犯这种错误时该谁负责的问题。今年3月,日本生命保险公司起诉OpenAI,声称ChatGPT在无执照的情况下从事法律业务。

    今年5月,OpenAI请求法院驳回此案,辩称ChatGPT不从事法律业务。”ChatGPT不是一个人,既没有也没有使用任何程度的法律知识或技能,”OpenAI在文件中说。此案仍在法院待决。

    各州已经开始权衡立法,让AI公司对聊天机器人提供糟糕法律建议负责。纽约在今年3月引入了一项法案,将禁止聊天机器人冒充律师。在国会,一系列法案已经被提出,禁止聊天机器人冒充律师、医生和其他有执照的专业人士。

    目前,人们将继续转向AI来做他们的律师。对他们很多人来说,回报大于风险。Braswell法官说:”这是一个真的很难 navigating 的系统。但有了AI,它变得不那么复杂了。”

  • 一家迈阿密AI创业公司说它突破了LLM十年的数学瓶颈,外界将信将疑

    一家迈阿密AI创业公司说它突破了LLM十年的数学瓶颈,外界将信将疑

    一家迈阿密AI创业公司说它突破了LLM十年的数学瓶颈

    一家叫Subquadratic的迈阿密AI创业公司,上个月从隐身模式走出来,扔了一颗重磅炸弹:他们说自己解决了一个卡了LLM近十年的数学瓶颈。

    细节很少,很多人不信。但Subquadratic开始拿出证据了——他们公布了第三方公司Appen对他们的新模型SubQ的独立评估结果。结果看起来,这家公司的说法或许值得认真看待。

    Subquadratic AI模型突破LLM瓶颈
    Subquadratic声称SubQ模型突破了LLM的二次方计算瓶颈

    根据Subquadratic的说法,他们开发了一种全新的LLM,叫SubQ,比市面上任何其它模型都更快、更便宜、能耗也低得多。公司还声称,SubQ一次性处理的文本量是最其它大多数模型的12倍,可以执行分析数百份文档或者整个代码库这样的数据密集型任务。

    SubQ在编码等关键任务上的表现基本上能跟Google DeepMind、OpenAI和Anthropic的最佳模型持平。

    问题就在于,这家公司一开始除了少数几个自己发布的测试分数之外,几乎没提供什么证据。而且SubQ至今还没有广泛开放给公众试用。

    所以Subquadratic的说法遭到质疑一点也不奇怪。AI工程师Dan McArthur在X上总结了很多人的反应:”SubQ要么是自Transformer以来最大的突破……要么它就是AI圈的Theranos。”

    注意力机制

    要理解为什么Subquadratic的说法很重要,我们需要深入了解一下大多数LLM是怎么工作的。LLM内部的核心机制是一种叫做”Transformer”的神经网络,它运行一个叫做”密集注意力”的过程。今天的LLM通常将多个Transformer串联在一起。

    密集注意力的工作原理是这样的:当Transformer处理一段文本时,它首先将每个词编码成一个数字,然后将每个数字与那段文本中的每个其它数字相乘。一段10000个词长的文本会触发近5000万次单独的乘法运算。这是大量的计算,也是LLM以能耗巨兽著称的主要原因。

    随着文本长度的增加,计算次数会急剧上升。词的数量翻倍,计算次数大致翻两番,这种增长速度被称为”二次方扩张”。

    削减成本

    Subquadratic的解决方案是抛弃密集注意力,转而使用”稀疏注意力”,这大幅减少了所需的计算次数。稀疏注意力不是将分配给每个token的数字与每个其它数字相乘,而是只选择其中一些数字来相乘。

    “稀疏注意力说,不是所有那些关系都重要,因为它们本来就不重要,”联合创始人兼CTO Alex Whedon说。”如果你在读一本书,你不会去看第一个词和第二个词,第一个和第三个——那太疯狂了。”

    这听起来简单,但Subquadratic也不是第一个尝试的。以前选择哪些数字相乘的技术,都没能产生一个能像密集注意力一样好地捕捉文档含义的机制。

    Subquadratic声称终于破解了这个问题。他们将SubQ宣传为第一个在性能上能与主流密集注意力模型匹敌的稀疏注意力LLM。

    “从历史上看,大多数机制都使用固定模式,”Whedon说。”这相当局限。我们的机制动态选择哪些是重要的,这是对每段文本即时计算的。”

    测试结果

    第三方公司Appen评估了SubQ。在一个纯粹的速度测试中,Appen发现SubQ比使用以前稀疏注意力技术的模型快56倍。在LiveCodeBench编码测试上,SubQ得分89.7%,跟其它顶级编码模型差不多。

    成本方面,根据Subquadratic的说法,通过RULER 128测试,运行Anthropic的Opus 4.6要花费2600美元。SubQ花了8美元。

    SubQ似乎确实能够处理非常大的数据集。该模型有一个长达1200万token的上下文窗口。今天大多数顶级模型的上下文窗口是100万token长。


    尽管得分很高,在更多人亲自上手试用模型之前,一些质疑是有道理的。独立AI研究员Will Depue说:”他们可能做出了真实有用的东西。但公开证据还不足以证明他们解决了二次注意力瓶颈这一更强硬的说法。”

    与此同时,Subquadratic联合创始人Whedon坚持认为,做出不同的东西是他唯一的选择。”如果你想构建一个有竞争力的模型,你必须要有新想法,”他说。