标签: Gemini

  • WWDC 2026前瞻:Siri要变独立App了,苹果押注AI重构全系统

    苹果刚刚正式宣布,2026年全球开发者大会(WWDC 2026)定在6月9日凌晨1点开幕。和往年不一样,这次苹果在发布会前就主动预告会带来”AI新进展”——外界普遍认为,这会是苹果近年来战略意义最重的一次开发者大会。

    Apple WWDC 2026前瞻
    苹果WWDC 2026将于6月9日开幕,Siri将迎来15年来最大变革

    Siri变独立App,这是15年来头一回

    最值得关注的变化是:Siri要被彻底重建,而且会以独立App的形式重新出现在iOS 27里。这是自2010年苹果收购Siri、把它塞进系统底层以来,时隔15年第一次恢复独立App形态。

    苹果这个举动背后的信号很直接:过去那套语音助手的逻辑已经走不通了。新版的Siri交互界面全部重做,采用类似iMessage的对话列表设计,支持多轮连续对话,历史记录可以搜索和回溯。用户还能通过全局手势从屏幕顶部中央下滑一键唤起——灵动岛在唤醒时会展开,配上发光光标效果,存在感比现在强得多。

    据彭博社马克·古尔曼等多方信源披露,新版Siri支持跨应用深度联动,可通过App Intents框架读取邮件、日历和屏幕内容并执行操作,算是真正意义上实现了多任务自动化。

    苹果找谷歌当”外援”

    在底层模型的选择上,苹果做了一件挺有意思的事:跟谷歌达成深度合作,引入Gemini大模型为新版Siri提供核心能力支撑。据悉苹果每年为此向谷歌支付约10亿美元。

    但苹果还是守住了隐私边界:用户数据在苹果自有的私有云服务器上运行,谷歌无权将对话内容用于模型训练,而且聊天记录支持用户自主设置保留30天、一年或者永久。

    不过苹果自己似乎对这套新版Siri的成熟度也没那么有信心。iOS 27测试版里,新版Siri已经被标注了”测试版”字样,系统里还内置了退出测试体验的开关——这意味着即便今年秋季正式发布,这个”测试版”标识很可能还会保留一段时间。

    AI功能全面铺开,但大多是”跟跑”

    除了Siri本身,iOS 27在AI能力上还有几项值得说的更新。写作辅助方面,苹果计划推出一套对标Grammarly的AI语法检查工具,以半透明菜单的形式从屏幕底部滑出,并排展示原文和AI修改建议,用户可以逐条采纳或者一键全部批准。

    快捷指令也迎来了自然语言化升级——以前用户得手动拼装自动化流程,现在只要在文本框里用自然语言描述需求,系统就能自动生成并安装对应的快捷指令。门槛低了很多。

    更有意思的是,iOS 27将引入名为”Extensions”的第三方AI模型接入系统,允许用户安装Claude、Gemini等主流AI应用作为扩展,并在搜索栏里自由切换不同的AI引擎。这意味着ChatGPT从苹果的”特权合作伙伴”变成了众多选项之一——苹果的AI平台化战略,这次算是正式浮出水面了。


    折叠屏iPhone也在路上

    今年9月,苹果预计将发布第一代折叠屏iPhone。这是苹果十几年来最大的产品形态革新,对系统软件和AI能力的适配提出了全新要求:多任务调度、大屏界面优化、AI交互入口的重新设计,都需要硬件、软件和AI能力三方协同。

    从这个角度看,iOS 27这次AI重构做得好不好,会直接决定折叠屏iPhone的产品说服力。目前约80%到85%的在用iPhone不具备运行新一代Apple Intelligence功能所需的硬件条件,涉及设备规模达11亿到13亿台——这批用户构成了苹果潜在的换机蓄水池,一旦新版Siri的体验足够扎实,AI能力从”可选项”变成”强依赖”,这轮换机潮的规模会相当可观。

  • 我把谷歌的Gemini Spark塞进日常生活一周,有些话想说

    谷歌在今年的I/O大会上发布了Gemini Spark——一个跑在云端虚拟机上的7×24小时AI智能体。CEO皮查伊当时开了个玩笑:”你可以合上笔记本电脑了。”这话明显是在暗戳戳地怼OpenClaw那种需要保持设备唤醒才能工作的方案。

    听起来很美好。但真正用了一圈之后,我发现Spark的定位其实挺尴尬的——它既不是给发烧友用的极客工具,也没有真正想清楚普通用户到底需要它干什么。

    它能做什么?实际测了四个场景

    我拿到了提前体验资格,给Spark安排了四个不同类型的任务,想看看这个”永远在线”的AI助手到底能帮上什么忙。

    Gemini Spark概念图
    Gemini Spark作为谷歌I/O 2026重点发布的AI智能体功能,定位”永远在线”(图源:Bloomberg / Getty Images)

    场景一:比价购物。我让Spark帮我在本地药店找优惠,哪些产品有折扣、哪些可以叠加优惠券。这块它做得不错——准确找到了参与促销的商品,还提醒我可以组合线上促销码。唯一翻车的是它推荐了一个已经失效的促销码,看来实时数据验证还是AI的弱项。

    场景二:一日游打包清单。让Spark查目的地天气、读取活动性质,然后给我出一份携带建议清单,还要导入Google Keep。结果你猜怎么着?Spark根本不支持Google Keep。作为谷歌自家的产品,这个遗漏实在说不过去。最后它给我塞了一份Google Docs文档,然后说”你可以去看那个文档当做清单”——行吧。

    Spark给我出的打包建议其实挺到位的:草坪椅、水、防晒霜、墨镜、太阳落山后穿的薄外套、可重复使用的购物袋,还提醒了我活动不允许带狗。问题不出在AI的理解能力,出在它和谷歌自家生态的打通程度上。

    场景三:本地周末活动推荐。我住的小城市不算热闹,但要靠自己翻遍所有本地简报、Facebook群组、线上报纸来找周末去处,实在太花时间了。Spark这次表现不错——它设置了一个网页搜索,结合我的Gmail里订阅的本地简报,整理出了一份近期活动清单。我甚至发现了有个年度”海狸女王”选美大赛在为湿地保护筹款——这种冷门活动我平时根本不可能主动搜到。

    场景四:价格监控。让Spark帮我盯着一款贵妇眼霜的降价情况,到了目标价就提醒我。这块Spark理解了意图,但把监控频率设成了”每两周检查一次”——如果你等的是一个转瞬即逝的闪购促销,两周一次的频率基本等于没监控。


    最大的问题:它为什么是个”独立品牌”?

    这是我用了之后最想吐槽的一点。Spark本质上就是Gemini的一个运行模式,但它被谷歌做成了一个有独立名字、独立切换开关的”产品”。用户要在Gemini的界面里手动切换”切换到Spark”——我作为一个正常人,为什么要思考”我这个需求是普通对话还是后台任务”?我只想输入请求然后完事。

    更要命的是,iPhone用户目前没法通过硬件按键或者手势直接唤起Spark。你得先打开Gemini App,再从里面手动切换模式。隔壁苹果的Siri shortcuts都能做到按一下侧键就触发自定义流程了,谷歌这个体验说实话有点掉队。

    Gemini Spark界面截图
    Gemini Spark的操作界面,用户需要手动切换模式(图源:TechCrunch screenshot)

    值不值得用?

    如果你已经是Google生态的深度用户(Gmail、Google日历、Google Docs全套在用),Spark确实能帮你省一些平时要手动整理的时间。但如果你期待它是一个能替你完成”跨应用复杂操作”的真·智能体,目前还差得远。

    谷歌说Spark未来会通过MCP协议接入更多第三方服务,到时候也许真的能做到”帮我在Resy上订餐厅”或者”监控机票价格自动下单”。但在那之前,Spark更像是一个”能记住你偏好的后台Gmail摘要生成器”——有用,但还没到非用不可的程度。

    • ✅ 优势:与Google生产力套件集成较深,云端常驻不依赖本地设备
    • ✅ 优势:摘要类任务表现稳定,节省日常信息整理时间
    • ❌ 劣势:缺少Google Keep集成,笔记场景体验割裂
    • ❌ 劣势:独立品牌增加认知负担,用户不清楚何时该用Spark
    • ⚠️ 待观察:MCP扩展落地后能力边界才能真正确定
  • 谷歌AI把Google拼错了,大语言模型的拼写死穴到底能不能修好

    上周有个网友在X上发帖吐槽,说用谷歌搜索”Google”的时候,AI概览(AI Overview)给出的结果里,Google这个单词里有两个P。等等,Google里明明只有一个P啊。

    这不是孤例。有人问AI”poop”里有几个R,它说有1个(实际是2个)。问”journalism”怎么拼,它给出的答案是j-o-u-r-n-a-d-i-s-m——多了一个完全不存在的D。”disregard”更离谱,AI概览直接输出了”我明白了,如果你有新的提示或问题请告诉我”,活像是把训练语料里的客服话术当成了单词释义。

    谷歌通过邮件向TechCrunch回应称:”统计单词内字母数量一直是大语言模型的已知难题,我们正在努力修复这个问题。”说实话这个回应挺诚实的——他们没狡辩,也没说这是特性不是bug。

    为什么AI不会拼单词

    这事的根源得从Transformer架构说起。大语言模型处理文本的时候,不是逐字母读取的,它会把文本切分成一个个”token”——一个token可能是一个完整单词,也可能是一个音节,甚至单个字母。模型内部存的是这些token的数字编码,根本不知道T-H-E分别是哪几个字母。

    阿尔伯塔大学的AI研究员Matthew Guzdial给TechCrunch举了个例子:当你输入单词”the”的时候,模型拿到的是”the”这个整体对应的编码,它完全不知道这个单词是由T、H、E这三个字母构成的。这就好比你认识一个人,但说不出他长什么样——你知道这个token”长什么样”,但拆不开它。

    Google AI Overview spelling error screenshot
    谷歌AI概览将”Google”错误拼写为两个P的截图(TechCrunch修改标注)

    东北大学研究大语言模型可解释性的博士生Sheridan Feucht说得更直白:对于语言模型来说,”单词”到底是什么其实是很难界定的问题。哪怕我们让人类专家达成一个完美的token词表共识,模型可能还是觉得需要把内容拆分得更细。他猜测,由于这种模糊性,根本不存在完美的分词器。


    这不是第一次,也不会是最后一次

    谷歌上一次在AI搜索上翻车,还是AI概览刚上线的时候。当时它引用讽刺网站The Onion和Reddit的帖子,给出了”每天吃一块小石头””在披萨上涂胶水”这类荒谬建议,闹得沸沸扬扬。这次谷歌把整个搜索体验都改成了生成式AI驱动,是搜索产品25年来最大的一次重构,拼写错误只是暴露出来的冰山一角。

    有意思的是,拼写测试已经成了AI圈的一个梗。每当有公司发布新模型,大家都会问它”strawberry里有几个R”——这个简单问题曾经难倒了所有主流模型。现在情况好多了,但Google这件事说明,哪怕模型能在几秒内写出一整个应用,或者解决困扰数学家几十年的难题,拼写能力还是和幼儿园小朋友差不多。

    研究人员并不乐观认为这个问题能被彻底解决。但换个角度想,大语言模型的价值本来也不在拼写能力上。这些明显的低级错误反而是个好事——它提醒我们,AI并不完美,哪怕它有时候看起来全知全能。用AI输出结果之前,二次核对准确性这件事,永远不能省。

  • Google I/O 2026:Gemini 3.5发布,AI智能体全面入侵谷歌全产品线

    北京时间5月20日凌晨,谷歌I/O 2026开发者大会开幕。今年发布会的重点不是某一个单一模型或功能,而是一次系统性转向——谷歌正在把AI智能体全面”塞进”所有核心入口。

    从搜索框到Chrome浏览器,从Android手机到智能眼镜,Gemini不再只是一个对话助手,而是一个可以持续运行、跨应用执行任务的AI代理:它能替用户追踪信息、生成内容、调用工具,甚至直接完成下单和操作流程。

    Google I/O 2026
    谷歌I/O 2026大会现场(图源:新浪科技)

    Gemini 3.5 Flash:价格砍半,速度4倍

    谷歌CEO桑达尔·皮查伊在主题演讲中发布了新一代大模型系列Gemini 3.5。首发推出的Gemini 3.5 Flash定位为”迄今最强大的智能体与编程模型”,输出Token速率达到其他前沿模型的4倍,而处理智能体任务的费用不到其他前沿模型的一半

    在GDPval-AA基准(衡量现实世界具有实际经济价值的编程任务)中,Gemini 3.5 Flash取得1656 Elo评分,超过了Gemini 3.1 Pro,也超过了目前公开可查的大部分前沿模型。在Terminal-Bench 2.1(衡量AI在真实终端环境中完成复杂任务的能力)中,得分76.2%——这意味着智能体在执行真实任务时的可靠性,正在从”勉强可用”向”可以依赖”跨越。

    皮查伊在演讲中直言:”Flash的惊人之处在于,它以不到同类前沿模型一半的价格,提供了前沿级别的能力。”当一家巨头愿意用”砍半定价”来推广自己的最前沿模型时,它传达的信号不是”我在让利”,而是”我要把竞争对手挤出市场”。

    视频模型Omni与智能体编程平台Antigravity 2.0

    DeepMind首席执行官德米斯·哈萨比斯登台发布了基于谷歌世界模型技术积累的新型视频生成模型Gemini Omni。该模型可以基于多种输入生成视频,并支持对话式编辑,用户可以通过自然语言修改角色、背景和场景。首款模型Gemini Omni Flash将于今年夏季推出。

    与此同时,谷歌发布了智能体编程平台Antigravity 2.0,直接对标Anthropic的Claude Code和OpenAI的Codex。该平台被谷歌定位为面向AI Agent时代的编程工具,官方称其”毫不掩饰地以智能体为先”。使用Antigravity 2.0及其代理系统从零开始构建一个操作系统,整个过程所消耗的Token成本不到1000美元。

    个人AI助手Gemini Spark与全线产品整合

    谷歌同时发布了全天候运行的个人AI助手Gemini Spark,基于Gemini 3.5,运行在Google Cloud虚拟机上。用户可以通过Gemini应用访问Spark,即便合上笔记本电脑,Spark也可以继续工作。本周将面向受信任测试人员推出,下周面向美国Google AI Ultra订阅用户开放。

    更重要的是,谷歌宣布了全线产品的AI智能体整合计划:

    • 搜索:将推出搜索信息智能体,后台24/7运行,主动发现信息并代为执行操作;Daily Brief Agent将整合用户的邮件、日历与任务,生成个性化晨间摘要。
    • Android:2026年晚些时候推出Android Halo,为用户提供实时智能体任务追踪界面。
    • 硬件:由Gentle Monster、Warby Parker与三星合作推出的Android XR智能眼镜将于2026年秋季上市,支持语音交互和信息投射。
    • 购物:发布由AI智能体驱动的通用购物车Universal Cart,可在Google服务中使用,追踪优惠、监控价格变动、识别兼容性问题。

    规模即壁垒:1800亿美元资本支出背后的逻辑

    皮查伊在演讲中披露了一组震撼数据:谷歌每月处理的Token数量已达到3.2千万亿,同比增长7倍;Gemini App月活跃用户从4亿增长至9亿;搜索AI模式月活跃用户突破10亿

    支撑这一切的,是谷歌2026年预计1800亿至1900亿美元的资本支出。这1800多亿美元的资本支出,本质上是在做一件事:用基础设施的规模化优势,把竞争对手挤出市场。当你的TPU集群规模、Token处理量和用户基数都达到竞争对手无法匹敌的量级时,”速度4倍、价格砍半”就不再是一个促销手段,而是一个结构性壁垒。

    回到根本问题:Gemini 3.5的发布,究竟是一次真正的技术飞跃,还是一次精心包装的战略营销?答案可能是:两者都是。从技术角度看,Gemini 3.5 Flash在基准测试中的表现、推理速度的提升、以及多智能体并行架构的落地,都是真实的进步。但与此同时,这次发布真正值得关注的,不是模型本身,而是谷歌围绕模型构建的全栈壁垒:TPU 8提供算力、Gemini 3.5提供智能、Antigravity 2.0提供平台、Spark和搜索提供触达——这条链条上的每一个环节,谷歌都握有主动权。

  • 谷歌I/O 2026全记录:Gemini Spark永久在线,智能眼镜今秋开卖

    5月19日,谷歌I/O大会开幕。主题演讲持续了两个小时,核心信息只有一句话:Gemini不再是聊天工具,而是要替你干活。

    这次大会发布的东西不少,但有一条主线贯穿全场——把AI智能体塞进你每天用的所有谷歌产品里:搜索、Gmail、YouTube、Docs、Chrome,一个不落。

    谷歌说现在有9亿人在用Gemini,人们已经用它生成了超过500亿张图像。2026年的目标是让Gemini成为你互联网的”执行层”。

    搜索的25年来最大重构

    搜索框变成了”智能搜索框”——AI代理直接嵌在里面,当天就向全量用户推送。你搜”黑洞”,搜索结果页不是十蓝色链接,而是AI直接生成一个可视化解释视频,嵌在结果页里播放。

    夏天还会上线”生成式UI”功能:搜索结果根据你查的内容类型自动调整布局。查新闻、查视频、查图片,每种场景下搜索结果的呈现方式都不一样,是AI实时生成的界面。

    Gemini Spark:谷歌版OpenClaw

    这是本次大会最值得关注的产品之一。Gemini Spark是一个永久在线的个人AI代理,跑在谷歌云上——就算你关了电脑、手机没电,它还在云端继续跑任务。

    它能读取你的谷歌硬盘文件,知道你的日历安排,理解你的生活节奏。你跟它说”帮我策划街区派对”,它会自己发邮件、追踪采购进度、发跟进邮件,全程不需要你盯着。涉及付款的关键节点才会来问你确认。

    目前Spark只支持谷歌自家服务,夏天会接入Chrome浏览器和第三方服务。这个产品的定位很清晰:跟OpenClaw正面竞争。

    智能眼镜今年秋天就卖

    谷歌联合三星和眼镜品牌Warby Parker、Gentle Monster做两款智能眼镜,属于Android XR平台。

    • 音频版:今年秋季上市,镜腿有扬声器,有摄像头,能看见你看见的东西,支持实时跨语言翻译
    • 带显示屏版:还在研发,上市时间更晚,可以在镜片上显示短信、导航、搜索结果

    两款都支持调用谷歌的图像生成工具Nano Banana——你拍一下眼前的场景,AI可以在画面上叠加虚拟物体或特效,没显示屏的版本会把生成内容推到你的手机或安卓手表上。

    其他值得关注的发布

    Gemini Omni:对标Sora 2的视频生成模型,特色是”真实感”——可以把你拍的自拍视频换背景、换风格、换环境,人物表演保留,场景全部AI重绘。轻量版OmniFlash当天就向Pro和Ultra订阅用户开放了。

    通用购物车:谷歌要做跨网站的购物车,你在不同电商网站逛,把想买的东西都加进这个统一购物车,AI帮你比价、提醒降价、推送新配色。结账时谷歌的安全支付系统可以一次性结清跨店铺订单。

    第八代TPU:训练性能提升3倍,推理专用版本每秒能生成1500个token。谷歌2026年在算力基建上的投入预计达到1900亿美元。


  • 我用Google的新AI模型Omni把自己P进了埃菲尔铁塔前,效果好到让我不安

    去年我用AI把孩子的毛绒玩具”深度伪造”成了一只去度假的小鹿,当时只是想验证一下Google在Gemini广告里承诺的功能到底靠不靠谱。视频没给孩子看,但那个实验让我开始认真思考:生成式AI的”无害娱乐”和”纯垃圾内容”之间,到底有没有界限?

    也许这两个圆圈完全重叠呢。也许不是。但有一件事我很确定:做出逼真的AI视频,需要的努力和知识少得令人惊讶。而这个趋势,在Gemini进入Omni时代之后,还在继续。

    Omni到底是什么

    Omni是Google新推出的一套生成式模型家族,号称有一天能把任何类型的输入——照片、视频、文字——变成任何其它东西。不过目前阶段,它还只是个视频生成工具。

    Omni Flash是这套模型里第一个正式发布的版本,现在已经可以在Google的AI视频生成和编辑平台Flow上用。如果你愿意,当然也可以继续用旧的Veo模型——但Omni在几个维度上确实比Veo进了一步。

    Google声称Omni在生成视频时会融入更多”现实世界知识”,因此能更好地保持角色在整个视频中的一致性。

    于是我把那只AI小鹿又请了出来,让它收拾行李再去冒险——看看Omni是不是真的如Google说的那样。

    结果:好得让人困惑

    怎么说呢,结果非常两极分化,甚至可以用”令人困惑”来形容。有些片段做得很好——比我五个月前测试Veo的时候一致性和还原度都高得多。但即使是最好的片段,也还是会有一些典型的”AI惊吓时刻”:比如小鹿在跳伞的时候突然换了朝向。

    我给了Omni更多创作空间:”做一个蒙太奇,展示小鹿打包行李、登上邮轮去热带度假的过程。氛围要可爱、好玩。小鹿在行李箱里塞了件搞笑的东西,后面会在片段里派上用场。”

    结果小鹿塞了一罐蜂蜜进去;后面确实有段情节是小鹿去够那罐蜂蜜,把它当成防晒霜在挤。说实话,这个桥段还不错。问题在于那瓶蜂蜜的外观在整个视频里一直在变:从玻璃罐,变成透明的挤压瓶,又变回装蜂蜜的挤压瓶。而我甚至不知道该怎么描述模型对视频最后一帧的处理——就好像它把刚才生成的所有元素一股脑吐出来就完事了。

    AI generated content label example
    Google Omni生成的AI内容会有标注 / The Verge

    编辑功能:有进步,但还不够

    你可以用文字提示词来建议对视频进行修改。实话实说,这方面Omni确实比Veo好用。但Veo的结果本来就烂得可以——我发现每次想改点什么,直接重新生成一个新视频反而更快。Omni确实会”听进”你的修改建议,但结果并不总是能打中你想要的点。

    我让它强调小鹿在度假片段里的面部反应,结果出来的东西看起来很怪异。它还时不时给小鹿加上鹿角——但小鹿根本没有鹿角,它还是个宝宝呢,谢谢。当我提示它去掉某个场景里突然出现的鹿角时,它照做了——然后在所有其他场景里都加上了鹿角。

    这一切都不是免费的

    生成视频是要消耗”积分”的,根据场景长度和起始”素材”的不同,一次消耗15到40积分不等。一轮编辑要花40积分。我订的是每月20美元的AI Pro方案,每月给1000积分。生成了大约20个片段、其中几个做了编辑之后,我的积分就只剩145了。

    如果你对想要生成的视频有比较具体的想法,那你可能要做好心理准备:跟模型来回拉锯很多轮才能得到一个接近你想象的视频,而每一轮都要烧积分。

    然后我把自己深度伪造了

    Omni号称的强项之一是把AI生成的内容叠加到真实视频上,所以我让小鹿休息了一下,转而深度伪造了我自己。我给Omni喂了一段自拍视频,表情很中性,然后让它生成我吃一盘意面、坐在飞机座位上、站在埃菲尔铁塔前咬一口法棍的视频。说实话,我没准备好面对我看到的东西。

    我的深度伪造视频里有一些”AI痕迹”:叉子碰到意面碗的那个声音有点太”做作”了;飞机视频的背景里有个女人出现了两次;但除了这些小故障和一种说不清的”诡异感”之外,它们逼真得要命。

    我把吃意面的片段给我丈夫看了。他知道我在测试AI视频工具,但我没告诉他场景里哪些部分是AI生成的。在不知道哪些是AI的情况下,他完全相信我就是坐在镜头前吃意面——他唯一的疑点是那个碗看起来不太眼熟。至于吃意面这个动作本身,逼真到足以让我丈夫信服——一个在过去十年里几乎每天看着我吃东西的男人。

    我的其他深度伪造视频有不同程度的”好到能在社交媒体上骗到人”。有几段埃菲尔铁塔的片段看起来有点卡通化,但其中一段逼真到你可能要反复看几次才能发现是AI。我知道那不是我,因为AI版本的我转过头时露出了扎成马尾的头发——但我不觉得其他任何人能看出区别,而这让我感觉很怪。


    我得诚实地说,我有点被这一切整累了。当初测试Veo 3的时候,我被它能产生的真实感震惊了。过去几年里,我一次又一次地被”用AI造出假人”有多容易而震惊。我可能也应该被Omni震惊,我想我确实震惊了,但那种”震惊感”已经磨掉了。

    要用AI做出一部”电影级杰作”,其实还没有Google想让你相信的那么容易。但Omni确实在某些可辨认的维度上比Veo有进步。如果你有一个Google账号和一张信用卡,那你只需要微不足道的努力,就能把一段自己坐在家里的视频变成看起来像在飞往毛伊岛的飞机上的画面。我不觉得我们正好站在”奇点的山麓”——但我们肯定已经深深陷入了诡异谷。

  • 谷歌云安全负责人说一套做一套:Gemini API密钥漏洞让开发者收到五位数账单

    谷歌云COO的”安全宣言”

    洛杉矶的一场活动后台,谷歌云首席运营官弗朗西斯·德·索萨(Francis de Souza)抽了几分钟出来聊企业AI安全的现状。他的语气像大学教授一样冷静审慎:”会有一个过渡期,然后我认为我们会进入一个更好的阶段。”

    话说得漂亮。但《注册表》(The Register)在过去几周里记录的大量案例,让这番话听起来有点微妙——那些案例里,开发者因为对 Gemini 模型的未授权 API 调用,收到了五位数甚至六位数的账单。

    AI安全概念图
    AI安全:说起来容易做起来难

    “影子AI”:企业安全的隐形漏洞

    德·索萨的核心观点其实是安全专业人士多年来一直在试图让高管们内化的:安全不能是事后想法。他特别警告了”影子AI”的风险——员工在没有组织监督的情况下使用消费级工具。

    他说:”当公司开启AI之旅时,他们需要采取平台化方法。安全不是你之后可以加装的东西,也不是你可以留给员工自己处理的事情。”

    这话没错。但有趣的地方在于,谷歌自己似乎也还在经历这个”过渡期”——就像德·索萨自己说的那样。

    “没有数据战略和安全战略的AI战略是不存在的,它们必须齐头并进。”——弗朗西斯·德·索萨,谷歌云首席运营官

    23分钟的”黑洞”:Gemini API密钥撤销延迟

    问题出在哪儿?《注册表》报道了一个让人坐不住的细节:开发者即使捕获到泄露的 Gemini API 密钥并立即删除它,攻击者仍然可以继续使用该密钥长达23分钟。

    原因是谷歌的撤销操作在其基础设施中是逐步传播的,不是即时生效。安全公司 Aikido 的研究员约瑟夫·莱昂(Joseph Leon)发现,在这23分钟的窗口期内,超过90%的请求仍然可以认证——攻击者完全可以利用这段时间从 Gemini 中提取文件和缓存的对话数据。

    莱昂还指出,谷歌自己较新的凭证格式似乎没有同样的问题:服务账户 API 凭证的撤销时间约为5秒,Gemini 较新的 AQ 前缀密钥格式的撤销时间约为1分钟。这说明23分钟的窗口不是工程限制,而是优先级问题。

    五位数账单:开发者的噩梦

    面试准备平台 Prentus 的 CEO 罗德·达南(Rod Danan)遇到了这种事。他的密钥被攻击者利用后,大约30分钟内账单就达到了10138美元。

    悉尼的开发者伊苏鲁·丰塞卡(Isuru Fonseka)也遭遇了类似入侵,醒来时发现自己被收取了大约17000澳元的费用——尽管他相信自己设置了250澳元的消费上限。

    两个人都不知道的是,谷歌的自动化系统根据账户历史记录升级了他们的计费层级,将有效上限提高到高达10万美元,而且不需要明确同意。

    在《注册表》发布初步报告后,谷歌退还了这两人的费用。但谷歌表示不打算改变自动升级层级的政策,理由是优先考虑防止服务中断,而不是执行用户声明的预算偏好。

    威胁格局已经变了

    德·索萨说得对:从初始入侵到攻击进入下一阶段的平均时间已经从8小时缩短到22秒,攻击面也远远超出了传统的网络边界。除了通常的资产,企业现在还有模型、用于训练模型的数据管道、智能体,还有提示词——所有这些都需要被保护。

    但他也指出了一个没有得到足够关注的风险:在企业内部系统游走的智能体,可能会暴露出多年来无人问津的遗忘数据存储库。”很多组织有旧的 SharePoint 服务器和访问控制,他们很久没有真正更新过,但这没关系,因为没人知道它们在哪里。但会在你的企业里漫游的智能体会找到这些数据资产,并暴露上面的数据。”

    应对方法是以机器速度对抗机器速度——用 AI 原生的、完全智能体化的防御来保护自己。但这又回到了那个问题:当平台自己还在”过渡期”的时候,客户的过渡期要到什么时候才能结束?


  • Google搜索彻底变天了,25年来最大一次改版

    用谷歌搜索的人最近应该都有感觉——搜出来的东西变了。不是结果排序微调那种变,而是整个交互逻辑都在重写。

    2026年5月的I/O大会上,谷歌把这件事摆到了台面上:运行了25年的”蓝链接列表”模式,正式成为历史。新版搜索的核心是一个AI驱动的交互系统,对话、智能体、动态界面全部内置在搜索里。

    数据已经说明问题

    AI概览(AI Overviews)的月活用户已经突破25亿,对话式搜索模式(AI Mode)的月活也超过了10亿。作为对比,ChatGPT在2026年初的周活是9亿。

    两家产品的用户规模其实已经在一个量级,只是谷歌的覆盖是”月活”,OpenAI的是”周活”——换句话说,很多人每周会用好几次ChatGPT,但谷歌搜索的触达面更广。

    AI概览月活25亿,AI Mode月活10亿——谷歌只用了不到两年,就把AI塞进了搜索的每一个角落。

    搜索框自己会扩展了

    新版搜索框最大的变化是——它不再只接受几个关键词。你现在可以直接打一整段话进去,搜索框会自动扩展,AI会在后台判断你到底想要什么。

    更关键的是,你不需要手动切换”AI模式”——系统会自动判断该给你链接列表,还是直接给答案。这个变化看起来小,实际上彻底改变了用了25年的搜索习惯。

    搜索里能跑智能体了

    这个是真正有意思的功能。从2026年夏天开始,用户可以在谷歌搜索里创建和自定义”信息智能体”,让它在后台持续追踪某个话题,有变化了主动推送到你面前。

    这本质上是把2003年推出的谷歌快讯(Google Alerts)整个重做了一遍——老版快讯只能告诉你”某个关键词有新页面了”,新版智能体能理解变化的内容、整合信息、甚至调用实时数据(比如股市数据)来做分析。

    比如你让智能体追踪某个行业动态,它会自己规划要监控哪些数据源、调用哪些工具,有符合条件的变化时,直接推一段整合好的摘要过来,附带来源链接供你深入查阅。

    搜索结果页开始”生成”界面

    谷歌把这个功能叫”生成式UI”——说人话就是:搜”黑洞”,结果页直接给你一个可交互的黑洞可视化模型,不是给你一堆链接让你自己去看。

    这个功能是Gemini Flash 3.5和谷歌DeepMind团队一起做的,2026年夏季起向所有用户免费开放。背后意味着一件事:搜索结果不再是”信息索引”,而是直接生成”工具”


    最争议的部分

    所有这些升级,对内容发布商来说是个坏消息。AI概览推出以来,来自谷歌的推荐流量已经在持续下滑,有几家靠广告活着的媒体已经直接关门了。

    新版搜索把链接降级为”次要内容”,发布商适应新环境的时间窗口非常有限——新版搜索框当周就上线,生成式UI和智能体功能也在夏季陆续推出。

    谷歌CEO Sundar Pichai说,公司的目标是让AI功能尽可能覆盖更多用户,包括个人AI智能体Spark未来也会免费开放。从商业逻辑上看,这一步确实必须走,只是代价要整个内容生态来承担。

  • 我们试了谷歌的AI眼镜,已经很接近理想状态了

    在今年的谷歌I/O开发者大会上,我们有机会短暂体验了谷歌即将推出的AI眼镜——不是该公司宣布将于今年秋季发售的仅支持音频的眼镜,而是同时提供音频和视觉体验的版本。

    这些Android XR眼镜在去年的大会上首次公布,其镜片内置显示屏,可将实用信息叠加在真实世界之上,直接呈现在用户视野中。这包括可显示天气、步行导航、Uber接驾信息、实时翻译等内容的小组件,甚至是用户自己用AI设计的自定义小组件。

    谷歌Android XR AI眼镜
    谷歌Android XR AI眼镜 (来源:TechCrunch)

    prototypes已经相当成熟

    我们测试的眼镜仍然是非常早期的原型,但已经足够成熟,可以进行外部测试。演示XR眼镜的工作人员解释说,原型机让公司不必担心与不同款式、造型相关的外观设计细节,因此可以更自由地试验显示技术,以及它对电池续航的影响。

    这意味着这些样机在佩戴贴合度、造型、尺寸和设计细节方面,和任何未来发售的正式版本都会有很大不同。更像是可以在基础、舒适的镜框内对眼镜的”内部构造”进行试验。

    这款带显示屏的眼镜是今年晚些时候推出的第一代音频眼镜的下一步迭代产品。眼镜是与Warby Parker、Gentle Monster和三星合作开发的,将谷歌的技术与这些品牌的设计美学相结合。

    实际使用体验

    要激活Gemini,需要长按眼镜镜框右侧2秒,启动提示音会响起,告知用户Gemini已经开启并正在监听。在演示版本中,启动Gemini的同时也会启动摄像头,但正式发售版本将允许用户配置是否在启动Gemini时同时开启摄像头。

    在第一次测试中,我们要求Gemini播放一位我们喜爱的艺术家的音乐。由于场地太吵,无法评估音质,即使音乐开到最大音量,仍然很难清晰、有细节地听到。但从这次有限的体验来看,初步印象是这款眼镜无法替代更高质量的耳塞,但如果只是想在外面散步、徒步或在家做家务时听点音乐,它可以满足需求。

    要关闭音乐,只需轻敲镜框侧面中间的位置,就像敲击太阳穴一样。

    拍照和AI处理

    在第二次测试中,我们按下拍照按钮给一个人拍了照片。当时显示屏是关闭的,所以照片被传输到了我们的手机和手表上。(之后你可以通过长按来拍摄视频,但原型机暂不支持这个功能。如果是拍视频,你会看到视频缩略图预览,而不是照片。)

    你也可以直接让Gemini拍照,无需按拍照按钮,还可以对拍摄结果进行一些AI处理。比如你可以说”拍张照片,把这个人物变成动漫角色”。照片会先发送到手机,再发送到Gemini和Nano Banana服务器,之后返回编辑后的版本。

    在谷歌I/O的场地里,Wi-Fi负载很高,整个往返过程大约需要45秒。

    显示屏体验

    开启显示屏后,你会在视野中看到一个简单的主屏幕。演示版本预装了一些小组件,显示天气和谷歌I/O活动的倒计时。如果你是眼镜的主要使用者,也可以把谷歌地图、翻译等特定应用的快速启动器设置好。

    原型机只有右眼上方的单显示屏,但该平台同时支持单显示、双显示以及仅音频的眼镜模式。显示屏的图像有点模糊,我们认为这和我们佩戴的处方隐形眼镜有关——我们一只眼睛的镜片是优化远距离视物的,另一只优化近距离视物。当我们闭上一只眼睛时,图像会更清晰,但这种体验几乎立刻就让我们右眼上方产生了视疲劳。


    翻译功能表现突出

    最出色的演示之一是眼镜的语言翻译功能,它依托手机上的谷歌翻译应用。一位演示人员语速很快地说西班牙语,眼镜自动检测到了语言,并在显示屏上显示英语翻译文本,同时Gemini会在我们耳边用英语说出来。

    我们认为很多出境旅行者会为了这个功能购买这款眼镜。需要指出的是,仅音频的眼镜也支持翻译功能,只是不会在眼镜上显示文本,如果需要的话,你可以在手机上看到转录文本,同时还有实时音频反馈。

    导航体验不挡视线

    另一个演示是使用眼镜导航。你可以通过要求Gemini导航到某个目的地来启动谷歌地图体验——甚至可以模糊到比如”最近的咖啡店”这样的指令。

    Gemini会激活手机上的谷歌地图,在体验加载的短暂延迟后,眼镜会显示转向导航信息。当你向前看时,会显示下一个转向的信息。但如果你需要在空间中定位,低头看地面就能看到地图上的蓝色圆点。你也可以左右转动身体来在空间中旋转,就像你在手机上调整蓝色圆点的方向一样。

    然后当你再抬头时,可以继续行走,地图不会挡住你的视线。因为这个体验是和手机上的谷歌地图绑定的,所以”家””公司”等已保存的目的地已经可以直接使用。

    物体识别还需优化

    我们还短暂地用眼镜识别视野中的各种物体,并向它提问。眼镜最初很难识别我们面前架子上的莫奈画作复制品,这是因为原型机没有自动开启摄像头——必须从应用中手动开启。

    不过即使我们凑近去聚焦画布左下方的莫奈签名,Gemini还是问了几个问题之后才说它看起来像莫奈的作品。其他测试更顺畅,眼镜立刻识别了架子上的植物,还回答了关于书上不同食谱的问题。


    后续规划和市场背景

    谷歌表示,今年晚些时候它会分享更多关于Android XR显示眼镜的信息,届时它会扩大其可信测试者计划。

    与此同时,该公司认为音频功能已经可以满足部分用户的需求,这可能是面对Meta和Snap在该领域的竞争,它还没有准备好显示眼镜的巧妙说法。

    和显示版本一样,仅音频眼镜也可以访问谷歌的Gemini AI,你可以通过眼镜的镜框扬声器私密收听。你可以通过眼镜听音乐、按按钮拍照、打电话,或者访问手机应用,这些功能和未来的显示版本一样。

  • 谷歌I/O 2026:传统搜索时代宣告结束,AI代理全面接管信息采集

    在本周举行的谷歌I/O开发者大会上,谷歌搜索负责人Liz Reid说了一句话,值得所有靠搜索引擎拿流量的网站主认真听一听:”你熟悉的传统’十条蓝色链接’搜索时代,正式宣告结束。”

    这不是夸张的营销话术。谷歌在I/O上发布的搜索功能AI驱动全面改版,是搜索框诞生25年来这个网络入口最大的一次变革。

    新搜索到底长什么样

    新的搜索框会直接扩展,容纳更长、更具对话性的查询——你不用在查询开始时特意选择什么”AI模式”,它默认就能理解更复杂的提问。

    搜索结果页面也在变。谷歌会把用户导向AI驱动的交互式体验,而不是一堆链接列表。链接并没有完全消失,但在很多类型的搜索里,它们不再是优先展示的内容。

    搜索结果里蓝色链接的存在感会越来越低。用户花在手动点击链接上的时间会变少,越来越多”搜索网络”的工作,将由AI代理来完成。

    三个值得关注的新功能

    第一,信息代理。今年夏天开始,用户可以在谷歌搜索中创建、定制和管理多个”信息代理”,它们7×24小时在后台工作,跟踪网络上的变化,并在有新信息时提醒你。这本质上是谷歌提醒(Google Alerts)的进化版——代理不仅能发现变化,还能理解这些变化的意义。

    第二,生成式UI。由DeepMind团队基于Gemini Flash 3.5开发,能根据用户的搜索问题动态构建自定义小部件和可视化内容。比如你问关于太空黑洞的问题,搜索结果里会直接出现一个让这个概念生动起来的交互式视觉效果,而且你可以继续追问,看到谷歌实时生成的全新可视化内容。

    第三,搜索内小应用构建。用户可以借助Antigravity平台,通过自然语言命令直接在搜索中构建自己的可定制、有状态体验——也就是”小应用程序”。比如构建一个膳食计划应用,利用你日历里的信息来帮你决定准备什么以及什么时候吃。

    谷歌新版AI搜索界面
    谷歌新版AI搜索界面示意图(图片来源:TechCrunch)

    数字背后的信号

    谷歌公布的数据很能说明问题:AI概览(AI Overviews)的月活用户已经超过25亿;去年推出的对话式搜索AI模式,月活也突破了10亿。作为对比,ChatGPT今年早些时候的周活用户是9亿。

    这两个数字的差别值得玩味:ChatGPT的用户粘性更高(用户一周内反复回来使用),而谷歌在AI功能的月度独立用户覆盖规模上更大。


    网站主该怎么办

    对于依赖搜索流量的内容创作者和媒体机构来说,这波变化不是好消息。AI概览推出以来,很多网站的推荐流量已经在下滑,部分依赖广告的媒体机构已经因此倒闭。这次改版会让情况进一步加剧。

    谷歌的长期计划是把这些AI功能——包括个人AI代理Spark——最终免费开放给所有人。CEO Sundar Pichai在I/O前的新闻发布会上说得很清楚:把前沿模型做得高效、快速、成本低,是为了把它带给尽可能多的人。

    新搜索框本周就会推出,生成式UI今年夏天上线。留给网站主适应调整的时间,真的不多了。