标签: Google

  • ElevenLabs全面接入SynthID水印,AI声音内容终于有迹可循

    AI声音越来越像真人,水印成了最后的防线

    以前AI生成的声音一听就知道是机器——语调平、没感情、偶尔还卡壳。现在不一样了。ElevenLabs、Google、OpenAI的语音模型出来的效果,打电话过去很多人根本分不出来对面是真还是假。这让”声音深伪”从一个技术问题变成了一个社会问题——诈骗电话、假录音、伪造名人发言,这些事已经在发生。

    ElevenLabs这周做了一个实质动作:把Google DeepMind的SynthID水印技术接入了自己的文字转语音生成流程。免费用户已经能用上,接下来几周会覆盖所有音频生成。这个水印是直接嵌进音频里的,人耳听不到,但用ElevenLabs的音频检测器可以识别出来。哪怕音频被裁剪、加速、转格式、删掉元数据,水印还在。

    AI生成音频水印示意图
    SynthID水印:嵌在音频里、人耳听不见、但可以检测 | 图片来源:ElevenLabs

    SynthID是什么,为什么是Google在推

    SynthID是Google DeepMind在2023年推出的AI内容水印系统,最初用于图片,后来扩展到音频和视频。原理是在生成内容里嵌入一个人类无法感知的模式,专门的检测器可以把它找出来,从而判断这段内容是不是AI生成的、是哪个平台生成的。

    今年5月的Google I/O上,Google宣布了一个”SynthID联盟”——OpenAI、英伟达、ElevenLabs、Kakao都承诺采用这个标准。这是AI行业少有的”主动给自己套绳子”的时刻:大家同意在自己的输出里加标记,让外界能追溯来源。当时这还只是一个承诺,ElevenLabs现在是第一个真正把这件事跑通的上线案例。

    “人们应该知道自己在和AI互动。随着我们的语音、音乐和音效模型越来越好,我们希望人们能够识别一段音频是否由AI生成,而且不需要专业工具。”——ElevenLabs产品团队

    水印能解决什么问题

    最直接的用途是溯源。如果有一段可疑的音频在传播,用ElevenLabs的免费音频检测器(Audio Detector)扫一下,就能知道是不是ElevenLabs生成的。这对打击深伪诈骗和虚假音视频有直接帮助。

    但这事也有局限性。水印只能证明”这段音频是ElevenLabs生成的”,不能证明”这段音频是某某人说过的”。如果有人用ElevenLabs克隆某人的声音去诈骗,水印能告诉你是ElevenLabs生成的,但没法直接告诉你克隆的是谁。要真正解决问题,还需要平台、法律、用户教育一起上。

    另一个现实问题是:水印只覆盖愿意加它的人。如果有人用没有水印的开源模型生成音频,这套体系就失效了。所以SynthID联盟的意义在于,让主流平台都加入,至少大部分商业AI音频是有标记的。

    ElevenLabs在博客里还提到,他们正在推动把SynthID加入C2PA的软绑定列表。C2PA是一个内容来源认证标准,能让被删掉元数据的内容重新”找回”自己的来源信息。这两个标准如果能打通,AI内容的溯源体系会更完整。

    监管压力是背后的推手

    越来越多的司法管辖区要求AI生成内容必须以机器可读的方式标注为”合成内容”。欧盟AI法案里有相关条款,美国各州也在推类似立法。对ElevenLabs来说,提前把水印做好,比事后被监管强制要求要主动得多。

    而且ElevenLabs本身也面临过滥用问题。2024年有过一波用ElevenLabs克隆名人声音制作深度伪造音频的事件,当时公司加强了安全审核。水印是又一层防护——就算有人绕过审核生成了不当内容,至少事后能追查来源。

    接下来,OpenAI、英伟达那边什么时候跟上,是业界最关注的。Google说它们都会用SynthID,但承诺和实际落地之间还有距离。ElevenLabs先走了一步,对其他平台是个压力,也是个参考。


  • Gemini 3.5 Pro跳票到7月,谷歌在最不该慢的时候慢了

    谷歌AI人才流失概念图
    Gemini 3.5 Pro推迟发布之际,谷歌正面临顶尖AI研究员持续流向Anthropic和OpenAI的尴尬局面

    谷歌原本计划6月发布Gemini 3.5 Pro,现在推迟到了7月。单独看这件事,其实没什么大不了——让模型多喘口气、多改几版再发布,总比赶工出来一个半成品强。但问题是,这个推迟发生的时机实在太不凑巧了:同一周里,Transformer架构的共同作者Noam Shazeer离职去了OpenAI,诺贝尔化学奖得主John Jumper离职去了Anthropic。模型晚几周发布可以等,人才往外走这件事等不了。

    谷歌这周失去的不仅仅是几个研究员

    Shazeer这个名字在AI圈分量很重。2017年那篇”Attention Is All You Need”论文,他是共同作者之一,Transformer架构就是那篇论文里提出来的。谷歌在2024年花了27亿美元以acqui-hire的方式把他从Character.AI请回来主导Gemini项目,结果不到两年,他又走了,这次是去OpenAI。

    Jumper的离开在另一个维度上更伤——他领导的AlphaFold项目拿了2024年诺贝尔化学奖,这是谷歌DeepMind迄今为止最干净利落的科学成果。AlphaFold团队的核心成员跟着Jumper一起走,基本上等于把DeepMind这几年最亮眼的一张牌整个搬到了Anthropic。

    Alphabet的股价在6月22日跌了5%,2250亿美元的市值就这么蒸发了。市场反应不一定理性,但市场担心的东西很具体:前沿AI实验室同时在抢芯片、抢客户、抢分销渠道,而这些竞争的背后归根结底是抢人。谷歌在前面两项上有优势,在”抢人”这一项上不能出问题。

    企业买家关心的不仅仅是模型本身

    Gemini 3.5 Pro的延迟发布本身并不是致命伤。谷歌说推迟是为了收集早期测试用户的反馈,对模型做进一步优化,这个说法站得住脚。企业客户也不希望拿到一个匆忙上线、跑真实工作流就出问题的模型。

    但企业客户买AI模型的时候,看的不只是眼前这个版本好不好用,他们也在押注接下来半年到一年的路线图——下一版模型什么时候出、质量怎么样、做这个模型的人还在不在这个实验室里。当Shazeer和Jumper在同一周宣布离职,企业CIO做决策时的信心就会打个折扣。这个折扣不一定是理性的,但采购决策从来不纯粹是理性计算。


    谷歌并不是输了,但它需要证明更多

    把话说回来,谷歌DeepMind仍然拥有巨大的计算资源,Gemini通过Search和Workspace的分发渠道也是竞争对手眼馋的。Gemini 3.5 Pro完全有可能在7月发布一个质量很高的版本,把这一轮的注意力重新拉回来。

    真正的问题是信心。Anthropic靠着Claude在开发者社区里积累了很强的口碑,尤其是在代码生成这块;OpenAI有最强的消费者拉力和平台生态。谷歌不能只靠提醒所有人”Transformer是我们发明的”来赢这一局,它得持续证明前沿AI可以走得足够快,而且做这个研究的最优秀的人还愿意留下来。

    7月的发布会是一个观察窗口。如果谷歌能拿出一份足够硬核的基准测试数据、清晰的价格方案,以及开发者社区的积极反馈,那么6月的这次推迟和人才流失就会变成脚注。如果发布含糊其辞、细节有限,竞争对手会用这个空隙做文章。


    这一轮AI人才战的背后还有一个容易被忽略的驱动力:IPO预期。Anthropic和OpenAI都在筹备上市,在上市前进去拿股权,对于谷歌内部的顶级研究员来说是一个很难拒绝的财务激励。谷歌可以给高薪,但给不了上市前股权的倍数增长空间。这个结构性因素不会在短期内消失,谷歌需要想清楚除了薪资之外还能给顶尖研究员提供什么——这个问题,6月的这一周把它摆到了台面上。

  • Google的AI大牛们正在集体出走,Anthropic和OpenAI疯狂捡人

    Google的AI研究部门正在经历一轮令人不安的人才流失。根据彭博社的报道,顶级AI研究人员Jonas Adler和Alexander Pritzel已经决定离开Google,加盟Anthropic。这两个名字你可能不太熟悉,但他们都是Google Gemini模型开发过程中的核心人物。

    一周之内,连续出走

    这已经不是偶然事件了。就在上周,传奇AI研究员Noam Shazeer刚刚宣布离开Google、加入OpenAI。Shazeer在Google的资历极深——2000年就加入了,中间出去创立了Character.AI(那个做AI聊天伴侣的创业公司),后来Google花了27亿美元把Character.AI的人才和技术基本整个买了回来,目的就是把Shazeer弄回来主导Gemini项目。

    AI研究人员从Google流向Anthropic和OpenAI
    顶级AI研究人员正从Google流向Anthropic和OpenAI | 来源:TechCrunch

    结果人刚回来没多久,又要走。而且这次不是一个人——就在Shazeer官宣之后几天,DeepMind的总监John Jumper也宣布离职去Anthropic。Jumper可不是普通研究员,他和DeepMind CEO Demis Hassabis一起拿了2024年的诺贝尔化学奖,获奖理由是用AlphaFold预测蛋白质三维结构,这项技术对整个生物界都有颠覆性意义。

    一个诺贝尔化学奖得主、一个Gemini核心架构师、一个Character.AI创始人——这些人短时间内接连离开,对任何一家公司来说都是值得警惕的信号。

    为什么是现在

    时机很微妙。OpenAI和Anthropic都在准备IPO,这对于顶尖AI人才来说是一个极具吸引力的时刻——用股权来抢人,这种手段在硅谷从来都好使。相比之下,Google的薪资福利虽然依然顶级,但股票增值的想象空间跟一家即将上市的公司能给出的期权比起来,确实没那么性感了。

    还有一个更深层的问题:Google内部对AI研究方向的控制和优先级排序,可能让一些研究员感到受限。Anthropic主打AI安全研究,OpenAI虽然争议不断但至少在推进AGI路线上目标明确。如果研究员觉得自己在Google做不了最想做的东西,出走只是时间问题。

    这对Google意味着什么

    短期来看,Gemini项目不会因为几个人离开就垮掉——Google的资源和人才储备依然深厚。但长期来看,如果这种顶级人才持续外流的趋势不能遏止,Google在大模型竞赛中的技术领先地位就会被一点点蚕食。

    更关键的是,Anthropic和OpenAI正在形成某种人才”黑洞效应”——越多顶级研究员过去,对那些还在犹豫的人吸引力就越强。Google现在需要认真想想,除了钱之外,还能给这些最顶尖的脑子提供什么他们真正想要的东西。


  • Google DeepMind砸7500万美元押注A24,AI开始认真搞定莱坞

    硅谷和好莱坞的边界又模糊了一层。Google DeepMind本周一宣布向独立电影公司A24投资7500万美元,双方要一起给电影人做AI工具。A24这个名字你可能不陌生——《瞬息全宇宙》《波拉特2》《Backrooms》都是他们的作品,走的是那种不太商业但很能打的路子。

    Demis Hassabis亲自出面

    DeepMind的CEO兼联合创始人Demis Hassabis在新闻稿里说了一句话,大意是:要做出真正能帮到创作者的工具,最好的办法就是跟创作者直接合作。这次合作被双方称为”首创性”的联盟,Google DeepMind会从中获得一线艺术家的反馈和指导,反过来为电影制作流程开发AI功能。

    Google DeepMind与A24达成AI影视合作
    Google DeepMind投资A24,AI正式进军好莱坞影视制作 | 来源:TechCrunch

    Hassabis这句话其实挺值得玩味的。过去两年,好莱坞对AI的态度可以用”又爱又恨”来形容——爱的是它确实能省成本、提效率,恨的是大家搞不清楚这东西到底会不会抢走自己的饭碗,再加上去年编剧工会大罢工,AI成了绕不开的敏感词。

    A24不是第一个吃螃蟹的

    但A24远非第一个在AI影视工具上押注的玩家。今年早些时候,Netflix宣布收购了本·阿弗莱克创办的AI工具公司InterPositive,这家公司专门给电影人做AI辅助制作工具。去年,亚马逊的MGM工作室也组了一个AI单元,目标同样是给电影和电视制作开发工具。

    好莱坞的AI军备竞赛已经开始了,只是这次的战场不在特效,而在创作工具链。

    A24最近跟Timothée Chalamet和Anne Hathaway等一线明星都有合作项目,这次拿到Google DeepMind的投资,显然是想在AI辅助创作这条路上走得更前面。对于一家以”独立””作者性”闻名的制片公司来说,主动拥抱AI工具这个决定本身就需要一点勇气。

    7500万美元能买到什么

    目前双方公开的细节并不多,只知道会共同开发面向电影制作的AI工具,具体是剧本分析、预可视化、后期制作还是发行营销,暂时还不清楚。但DeepMind在生成式AI和多模态模型上积累的技术,如果真的能无缝接入电影制作流程,想象空间确实不小。

    对Google来说,这笔投资的意义可能不止于”做工具卖钱”。A24在年轻创作者和影迷群体里的影响力不小,如果DeepMind的技术能在一部叫好又叫座的作品里刷个脸,对Google AI在整个创意产业的品牌认知会是很强势的背书。


  • Google Home终于学会”认人”了——即使你背对着摄像头

    Google Home熟悉面孔识别
    Google Home熟悉面孔识别功能升级 | 图片来源:The Verge

    Google Home 终于学会”认人”了——即使你背对着摄像头

    如果你的 Google Nest 摄像头老是认不出背对着它的家人,这个问题快成为历史了。Google 在 6月23日推送了 Google Home 的新更新,把”熟悉面孔”(Familiar Faces)功能往前推了一大步。

    以前的玩法很简单:你在 Google Home 里标记了几张面孔,摄像头认出来了就给你发通知。但问题是——人总不能一直正对着摄像头。你背着身走进厨房,或者侧着脸走过走廊,Nest Cam 就傻了,直接给你报一个”未知人员”的警报。这个问题困扰了不少用户。

    Google 在新版说明里写道:系统将开始使用”额外的非生物识别信号(体型、衣服颜色等)”来辅助判断身份。也就是说,即使脸没拍到,Google Home 也能通过你穿什么颜色的上衣、体型大概什么样,把你认出来。

    这个更新背后其实是 Google 在智能家居 AI 识别上的一次升级。此前”熟悉面孔”功能因为隐私问题在欧洲等地被搁置过一阵子,现在重新推进,而且识别维度更丰富了——不再只靠人脸这一种生物特征。

    顺带一提,这次更新还修了一个很烦人的小问题:以前你标记了某个人,但过了几个月那个人换了发型或者老了点,Nest 可能就认不出来了。新版本里”熟悉面孔”图库会自动用最新的图像更新,减少因为照片过时导致的误报。

    这次更新还顺带加了两个功能:一个是 Google Home 应用(4.20版)里新增了”系统健康警报”——如果你的 Nest thermostat 检测到 HVAC 系统有问题,会直接推通知给你。另一个是增强了对 Matter 开关的支持,智能家居互联互通这块 Google 还在慢慢补功课。

    对于家里装了一套 Google Home 的用户来说,这次更新最直观的感受应该是:少收到很多”检测到未知人员”的误报通知。识别准了,整个智能家居的体验才真正算”智能”。


  • OpenAI在IPO前招入两员大将,这波操作有点东西

    OpenAI最近动作挺大的,不是在发布新模型,而是在招人——而且招的都是量级很足的人物。就在上个月,两个重磅名字先后宣布加入OpenAI:一个是Google DeepMind的传奇人物Noam Shazeer,另一个是前特朗普白宫AI政策官员Dean Ball。

    这事儿 timing 很微妙。OpenAI正在准备IPO(首次公开募股),这时候把顶级技术大牛和政策老手一并揽入帐下,信号很明显:他们不只是在做技术,而是在布局一个能扛住政府监管、经得起公开审查的企业架构。


    Noam Shazeer是谁?为啥他的加入这么炸?

    如果你对AI技术有点了解,Shazeer这个名字绝对如雷贯耳。他是2017年那篇 seminal 论文《Atention Is All You Need》的联合作者——这篇论文提出了Transformer架构,而Transformer就是现在所有大语言模型(包括GPT、Claude、Gemini)的基础。

    简单说,没有Shazeer他们那篇论文,就没有现在的生成式AI爆炸。他是真正定义这个时代的人之一。

    Shazeer在Google待了20多年,中间出去创了个业,做了Character.AI(那个让你跟虚拟角色聊天的AI公司)。两年前Google花了27亿美元又把他请回来,让他负责Gemini项目。结果现在,他又跳槽了——目的地是OpenAI。

    OpenAI引入顶尖人才
    OpenAI在IPO前密集招入顶级人才,强化技术与政策双轮驱动

    但是,这家伙有点争议

    Shazeer加入OpenAI这件事,并不全是掌声。据《The Information》报道,他在Google内部论坛上发过一些关于跨性别认同和以色列-加沙战争的言论,导致管理层直接删除了他的帖子。

    这些争议会不会跟着他到OpenAI?目前还不好说。OpenAI这几年一直在努力塑造自己”负责任AI”的形象,招一个有过争议言论的技术大神,对他们来说是个需要权衡的事。

    OpenAI在招人这件事上,显然是有意同时补强”技术”和”政策”两块短板——Shazeer管技术,Ball管政策。这种双管齐下的招数,在IPO前夕尤其重要。

    Dean Ball:从白宫到OpenAI政策前线

    相比于Shazeer的技术光环,Dean Ball的加入同样值得关注,但方向完全不同。Ball去年在白宫待了一段时间,帮忙制定了美国的《AI行动计划》(AI Action Plan),然后离职回到了一个技术自由主义智库(Foundation for American Innovation)做高级研究员。

    现在,他宣布7月6日正式加入OpenAI,领导一个新团队叫”Strategic Futures”(战略未来)。这个团队的 mandate 很广: catastrophic risk(灾难性风险)、递归自我改进、劳动力市场规模影响,还有 frontier labs、政府(特别是美国联邦政府)和社会之间的关系。

    Ball直接向OpenAI首席战略官Jason Kwon汇报。他自己在博客里写了一句话挺有意思的:”换句话说,内部治理对未来AI的重要性,会比大多数人意识到的要大得多。”

    这句话其实说出了一个行业共识:AI实验室现在不只是做技术,他们也在把自己当成”准监管机构”——因为政府还没完全跟上,所以只能自己管自己。而Ball的工作,就是帮OpenAI把这套内部治理体系做扎实。


    这一招,是在Anthropic被打压的时候出的

    Ball加入OpenAI的消息,发布的时间点很值得玩味——正好是在特朗普政府打压Anthropic的时候。Anthropic的Fable 5和Mythos 5两款模型被政府强制下架,而OpenAI这边却在招入前白宫AI政策官员。

    这种对比,很难不让人多想。OpenAI显然跟现在这届政府关系处得不错,而Anthropic则陷入了跟监管层的恶斗。Ball的加入,某种程度上就是在把这种”跟政府关系好”的优势,转化成系统性的制度优势。

    对于那些在S-1(IPO招股书)里写”政府干预”是风险因子的公司来说,Ball就是那个”我们已经在里面了”的信号。竞争对手在被政府按着打的时候,OpenAI已经在布局怎么跟政府共舞了。

    这波操作,到底图什么?

    说到底,OpenAI这波密集招人,核心目标应该还是IPO。一个准备上市的公司,需要在技术实力、政策合规、风险管理这几个维度上都给投资者看到”我们很稳”。Shazeer代表了技术天花板,Ball代表了政策天花板——两个天花板一并抬高,估值就好讲了。

    不过,这种”大人物战略”也有风险。Shazeer的争议言论会不会在IPO前被翻出来做文章?Ball从白宫到OpenAI,会不会被质疑”旋转门”?这些都是OpenAI需要提前想好的问题。

    不管怎样,这一局OpenAI走得挺漂亮的。技术和政策两手都抓,明显是在为上市做全面准备。Anthropic那边还在跟政府扯皮,OpenAI已经把政府前官员招进来帮自己搞内部治理了——这差距,不止一点点。

  • 谷歌DeepMind给AI智能体装上了「双控装置」

    谷歌DeepMind给AI智能体装上了「双控装置」

    Google DeepMind AI控制路线图
    谷歌DeepMind发布AI控制路线图,为智能体安全提供系统级保障

    AI智能体正在改变我们和技术的关系。它们能自主执行复杂任务——从网络防御到科学发现再到产品开发——这些系统正在开启一个生产力的新时代。仅在美国,AI智能体到2030年就能创造2.9万亿美元的经济价值。

    但问题也随之而来:随着这些智能体变得越来越强大,它们也需要更复杂的安全保障措施。

    谷歌DeepMind近日发布了一份”AI控制路线图”,这是一个在其内部部署先进AI时用来管理和构建安全的框架。这个”纵深防御”思路,可能会成为整个行业的一个参考模型——它超越了传统的模型对齐,增加了一层系统级安全,即使对齐不完美也能提供保障。

    “把它想象成带双控装置的驾驶教练。教练信任学生,但随时准备在出现错误时接管方向盘或踩刹车。”——谷歌DeepMind官方博客

    从”假设对齐”到”假设不对齐”

    他们的安全思路从一个简单的假设出发:如果一个高能力的AI智能体没有跟我们的目标对齐,并且以意想不到的方式行动,怎么办?

    这不是危言耸听。随着AI能力越来越强,研究人员越来越担心”对抗性行为”——智能体可能会学会隐藏自己的真实意图,或者在被监控时表现良好、一旦有机会就做坏事。

    DeepMind的应对方案是:不要把所有鸡蛋放在”模型对齐”这一个篮子里。他们在传统安全措施(沙箱隔离、终端安全、提示注入防护)的基础上,增加了一层独立的系统级控制。

    把AI当成”潜在内部威胁”来防

    路线图的第一个支柱是威胁建模。他们开发了一个全新的AI威胁建模框架,把不可信的AI智能体当成潜在的”内部威胁”——就像一家公司对待一个已经有权进入办公室、但可能会作恶的员工那样。

    这个框架建立在业界标准的MITRE ATT&CK框架之上——这是一个基于真实世界观察、全球可访问的对抗战术和技术知识库。把潜在攻击拆解成更小的战术和技术,这样可以有条不紊地追踪风险,在造成损害之前发现不良行为。

    让AI互相监督

    路线图的第二个支柱是部署控制缓解措施,分为”检测”和”响应”两部分。

    检测方面,监控是骨干。他们用其他受信任的AI系统当”监督员”,不断审查正在工作的智能体的推理、行动和计划,看它是不是跑偏了。

    响应方面,如果监督员看到智能体试图做有害的事情,它可以介入,在损害发生之前阻止这个行动。这就像驾驶教练的副刹车——平时不碰,但需要时能救命。


    AI越聪明,防御越要升级

    路线图中有一个有意思的设计:把安全协议映射到AI能力的可测量里程碑上,根据模型能力动态调整防御强度。

    有两个关键维度:一个是”逃避检测的能力”。今天,我们监控模型可见的思维链;但随着模型学会隐藏自己的推理,光读它们说出来的推理就不够了。另一个是”造成潜在伤害的能力”——对于低风险和可逆的行动,可以延迟审查;但对于特别高风险的行动,必须实时预防,在有害行动执行之前就阻止它。

    为了构建这些系统,DeepMind团队已经分析了100万条编程智能体任务轨迹。大多数被标记的事件并不是源于对抗意图,而是源于智能体对目标的误解或者”过于急切”——它太想实现用户的目标了,结果跑偏了。

    理解这些细微差别对于完善安全协议至关重要。目前这个监控系统已经在Gemini Spark智能体上运行,能够对新兴问题做出实时响应。


    这不是一家的事

    DeepMind在发布路线图的同时,还向政策制定者发布了一份技术框架文件《智能体安全的三个层次》,详细说明了需要在三个层面改善安全:单个智能体层面、多智能体系统层面、以及整个生态系统的网络防御和韧性建设。

    这份路线图来得正是时候。最近Anthropic的Claude Fable 5模型被美国政府以国家安全为由阻止公开发布,整个行业都在讨论:谁来决定了AI什么时候太危险?DeepMind的路线图至少提供了一个技术层面的答案——不管监管如何变化,先把技术防线筑起来。

  • DeepMind诺奖得主跳槽Anthropic,Google的AI人才防线崩了?

    6月20日,一条消息在AI圈炸了锅——2024年诺贝尔化学奖得主John Jumper在X上宣布,离开工作了近9年的Google DeepMind,加入对手Anthropic。

    John Jumper加入Anthropic
    2024年诺贝尔化学奖得主John Jumper从DeepMind跳槽至Anthropic(插图:AI生成)

    Jumper在X上说,DeepMind CEO Demis Hassabis在他博士毕业仅6个月的时候就敢让他领导AlphaFold团队,这确实冒了很大的风险。过去这些年,整个GDM团队教会了他”如何做伟大的科学”。他还特意补了一句:GDM是个特别的地方,我仍然会兴奋地关注他们接下来会有什么惊人的发现。

    AlphaFold到底有多厉害

    说Jumper是AI领域最炙手可热的人物之一,一点不夸张。2024年,他和Hassabis一起拿了诺贝尔化学奖——理由是他们开发的AlphaFold,用AI预测蛋白质三维结构,直接把一个困扰生物学界几十年的难题给破了。

    蛋白质的3D结构决定了它的功能,传统方法要用X射线晶体学,动辄几个月甚至几年。AlphaFold把这个过程压缩到了几天,而且准确率惊人。这个成果开源之后,全世界的生物学家都在用,药企也在用它加速新药研发。Jumper就是这个世界级突破的核心推手。

    蛋白质结构预测精度的提升,意味着我们能更快地理解疾病机制、设计靶向药物。Jumper的离开,对DeepMind来说是个不小的损失。

    一周之内,两个人走了

    Jumper的离开并不是孤立事件。就在这周,Character AI的联合创始人Noam Shazeer也宣布离开DeepMind,不过他的目的地是OpenAI。

    Shazeer是什么来头?他在Google工作了20年,2024年Google花了27亿美元把他和一批研究员从Character AI”买”回来。结果才过了不到两年,他又走了,而且是去了OpenAI——Google最直接的竞争对手。

    Bloomberg的报道还透露了一个细节:Jumper在DeepMind后期,是Google开发AI编程工具的核心成员之一。而这个工具,Google到现在都没能成功地卖给企业用户。巧合的是,这正好是Anthropic的Claude在企业市场最强势的领域。

    Anthropic在攒什么局

    Anthropic这边的算盘其实挺明显的。公司成立以来,一直打着”安全AI”的旗号,但在顶尖研究人才上,跟Google DeepMind和OpenAI比还是有差距。现在把Jumper这样的诺贝尔奖得主揽入麾下,研究实力一下子就上了一个台阶。

    而且Jumper的专长——用AI解决科学问题——正好跟Anthropic最近发力的方向吻合。Claude在写代码、做研究这些”知识型任务”上本来就很强,如果有AlphaFold级别的科学AI能力加持,想象空间不小。


    这场AI人才大战,打到这个份上,已经不只是薪水或算力的比拼了。顶尖研究者想去的地方,是能做最前沿研究、能产生最大影响力的地方。DeepMind曾经是这个地方的代名词,但现在,Anthropic和OpenAI显然也在争夺这个位置。

    Jumper在X上的那条官宣帖子,发出没多久就引来了几千条回复。有人祝贺,有人感叹,也有人直接在评论区问:”所以AlphaFold的下一个版本会在Claude里跑吗?”

  • Google把AI翻译做到极致了:Gemini 3.5 Live Translate支持70+种语言实时互译

    Google把AI翻译做到极致了:Gemini 3.5 Live Translate支持70+种语言实时互译

    跨语言沟通一直是人类的梦想。从古代的翻译官,到现代的词典软件,再到AI翻译工具,我们一直在寻找能让人和人之间无障碍交流的方法。Google最早在2006年推出Google Translate,用机器学习做语言翻译。二十年过去,Google现在发布了Gemini 3.5 Live Translate,一个专门为实时语音到语音翻译设计的音频模型。

    Gemini 3.5 Live Translate是什么?

    简单说,它是一个能实时把一种语言翻译成另一种语言,并且用说话人自己的音色、语调、语速讲出来的AI模型。不是那种机械的合成音,而是听起来很像真人说话的翻译。

    Google说这个模型采用了一种”动态处理方式”。传统的轮流式翻译系统通常要等说话者说完后才开始翻译,这导致对话中经常出现尴尬的停顿。Gemini 3.5 Live Translate通过智能地平衡上下文优化与即时输出的需求,将翻译延迟控制在数秒内,减少了对话中的中断感。

    Gemini 3.5 Live Translate实时翻译展示
    Gemini 3.5 Live Translate实现低延迟实时语音互译

    70+种语言,保留说话人音色

    这个模型目前支持超过70种语言的自动识别和翻译。更重要的是,它不仅能生成自然流畅的翻译语音,还能精准还原说话者的语调、语速和音高特征。

    这意味着什么?如果你用英语说话,AI翻译成日语后,不是说日语的”AI机器人”,而是用你自己的”声音特点”说日语。听的人会觉得”哦,他虽然在说日语,但我能感觉到这是他在说话”。

    这种能力背后是Google在语音克隆和音色保留技术上的积累。当然,Google也说这个技术目前还在优化中,不是所有语言对都能做到完美的音色保留。


    低延迟实时翻译,让跨语言对话更自然

    实时翻译的最大挑战不是”翻译得准不准”,而是”翻译得快不快”。如果每次说话都要等三秒钟才能让对方听到翻译,那对话的流畅感就全毁了。

    Gemini 3.5 Live Translate的突破在于它能在”翻译质量”和”响应速度”之间找到平衡点。Google说它的延迟是”数秒内”,这意味着在实际对话中,你不会感觉到明显的卡顿。

    技术上,这得益于Gemini系列的强大多模态能力。它能同时处理音频输入、语义理解、跨语言转换、语音生成等多个步骤,而且是在一个端到端的模型中完成的,不需要把任务拆分成多个独立模块。


    应用场景——从国际会议到旅行沟通

    Google已经宣布把这个技术集成到Google Meet中。想象一下:一个视频会议,里面有说英语、中文、日语、西班牙语的参与者。每个人说自己的语言,其他人能实时听到用自己语言翻译的内容,而且延迟很低,对话能自然进行。

    除了会议场景,这个技术对旅行者也很有用。假如你去日本旅游,不会说日语,但有了支持Gemini 3.5 Live Translate的工具,你可以直接和餐厅服务员、出租车司机、酒店前台对话,AI会实时帮你翻译。

    当然,目前这个技术还在早期阶段。Google说它会逐步向更多用户开放,首先在Pixel设备和Android系统中上线,然后再推广到iOS和其他平台。

    AI翻译这几年进步很快。从最早的基于词典的逐词翻译,到神经机器翻译(NMT),再到现在的大语言模型驱动的实时语音互译,我们离《银河系漫游指南》里的”巴别鱼”(一种能实时翻译任何语言的生物)越来越近了。Gemini 3.5 Live Translate不一定是最完美的AI翻译工具,但它代表了这个领域的一个新里程碑。

  • 当AI代理开始「成群结队」地上网,Google DeepMind说:得先研究一下会出什么事

    当AI代理开始「成群结队」地上网,Google DeepMind说:得先研究一下会出什么事

    一个人干坏事,和一万个人同时干坏事,完全是两个概念。AI代理也是一样。Google DeepMind的AGI安全与对齐研究负责人Rohin Shah最近在担心一件事:当数以百万计的AI代理同时在线、互相交互的时候,会发生什么?

    这个问题听起来有点遥远,但Shah说:还有几个月就来了。他没有危言耸听——AI代理正在从「演示视频」走向「真实部署」,而当数量突破临界点,行为模式可能完全不一样。

    1000万美元,买一个研究领域

    为了未雨绸缪,Google DeepMind在2026年6月联合几家机构宣布了一笔1000万美元的研究资金,专门用来研究多智能体系统的安全风险。

    跟Google DeepMind一起出钱的包括:施密特科学基金会(Eric Schmidt夫妇的慈善基金)、英国政府的「登月局」ARIA、非营利研究组织Cooperative AI Foundation、以及Google的慈善部门Google.org。

    AI多智能体系统安全概念图
    多智能体AI系统的安全风险正在成为新的研究前沿(配图由AI生成)

    Shah说,这笔钱的主要目的是「启动学术界对多智能体安全的研究」。工业界实验室忙着做产品、冲估值,没人仰望星空——学者的优势是可以想得很远,包括那些工业界「脑子里排不上号」的问题。

    「主要问题是,多智能体安全几乎还不是一个真正的研究领域。我们希望它成为。」
    ——Rohin Shah,Google DeepMind

    风险到底是什么?

    Shah和施密特科学的James Fox说,最主要的担心是:现在互联网上已经有的坏事——诈骗、网络攻击、恶意软件——到了AI代理时代,会被「超级加倍」。

    比如「提示注入」(prompt injection):如果一个AI代理被喂了恶意指令,它就会变成一台自动行动的恶意软件,而且比任何人类黑客能干的都多。Fox说:「我们的数字公共空间是社会运作的基础,你真的不希望它陷入无政府状态。」

    为什么这个问题特别难?

    你不能用研究单个代理的方法来研究多代理系统。Fox说,基于LLM的AI代理不总是理性行动,而多代理系统的复杂性来自于「海量交互同时发生」。

    唯一理解它的方法,是在沙箱里做逼真的模拟。有些研究者(包括Google DeepMind的一个团队)甚至认为:通用人工智能(AGI)可能不是来自于单个超级模型,而是来自于一种「代理蜂巢思维」——多个代理的能力加起来大于部分之和。


    不是只有Google在担心

    Google DeepMind不是唯一一家对自己的技术感到担心的AI巨头。几周前,Anthropic发布了基于「零信任」原则的AI代理部署指南——零信任是网络安全里的一个思路,核心假设是:系统一定有漏洞,代理可能是攻击者,入侵一定会发生。

    以色列特拉维夫网络安全公司Akeyless的联合创始人兼CTO Refael Angel说:「过去所有的安全方法都假设机器是人类写的软件,走固定路径、做固定事情。代理打破了所有这些假设。它会推理,它会即兴发挥,它可能被人用一句话劫持。」

    Angel欢迎这笔1000万美元的研究资金,但他提醒:安全研究者容易沉迷于「极端假设场景」,而忽视了已经发生的无聊问题。这也是Shah他们在努力平衡的——既要看远,也要看准。

    我们还有多少时间?

    Shah说,我们还有「几个月」的时间,代理就会在经济中大规模部署,到那时潜在风险就成了真正的问题。他想跑在这个时刻前面。

    Fox补充说:几年前还是假设的风险,现在已经很真实了。「未来来得比预期快。」

    1000万美元,对于Google DeepMind自己的研发预算来说,是九牛一毛。但这笔钱的意义在于:把多智能体安全这个问题,从工业界的「顺手看看」变成学术界的「正经研究领域」。当AI代理开始成群结队地上网,我们最好已经想清楚会发生什么。