标签: Gemini

  • 谷歌搜索25年来最大改版:10条蓝链终结

    谷歌搜索终于动手了,25年来最大的一次改版

    用了25年的谷歌搜索,这回真的变了。不是小修小补,是把底层逻辑给重构了。

    你现在在谷歌搜索框里输入一个复杂问题——比如”比较过去20年主要经济体的碳排放趋势和GDP增速的关系”——出来的不再是一串蓝色链接让你自己点进去找答案,而是直接生成一个可交互的图表,数据整合了全网多个来源,你可以在搜索结果页直接操作这个图表。

    谷歌搜索产品副总裁Robby Stein表示,这次升级的核心目标是适应用户搜索行为的变化:人们现在问的问题更长、更复杂,整个互联网往往没有现成的完整答案。

    “10条蓝链”死了

    从1998年谷歌成立到现在,”10条蓝色链接”的搜索结果模式基本没变过。用户输入关键词,谷歌返回一串链接,用户自己点进去找答案。这个模式现在正式宣告终结。

    新版本的搜索结果页可以直接生成定制可视化内容、交互图表、甚至迷你应用。你问”怎么规划一次去日本的3周行程”,搜索结果页直接给你出一个可交互的行程规划器,而不是让你自己去点15个旅行博客。

    SEO行业炸了

    这个变化对SEO从业者来说是个地震级事件。过去20年,SEO的核心逻辑是”让我的链接排在前面,让用户点进来”。现在用户可能在搜索结果页直接拿到了答案,根本不会点你的链接。

    新的优化方向是让自家内容被谷歌的AI概览(AI Overviews)引用。你的内容不需要被用户点击,但需要被AI在生成答案时引用为来源。这是两套完全不同的优化逻辑。


    谷歌为什么要这么做

    背后的推动力很简单:ChatGPT、Perplexity这些AI搜索工具正在吃掉谷歌的午餐。用户发现,有些问题直接问AI比在谷歌上点10个链接效率高得多。

    谷歌的选择是:如果打不过,就把自己变成AI搜索平台。它有足够的优势——拥有YouTube、Gmail、安卓等30亿日活产品,这些数据喂给AI搜索的质量是任何竞争对手都比不了的。

    今年I/O大会上谷歌没有发布对标Claude Mythos的超级模型,而是推了更快更便宜的Gemini 3.5 Flash。CEO皮查伊的战略很明确:不跟Anthropic和OpenAI比基准测试分数,而是把足够好的模型铺到尽可能多的用户产品里。

    对普通用户意味着什么

    短期来看是好事。搜索体验确实会变好,尤其是那些需要整合多个信息源才能回答的复杂问题。你不用再开10个标签页来回切换了。

    长期的影响还不好说。如果所有人都不点链接了,靠流量生存的那些网站(媒体、博客、论坛)的商业模式会受到严重冲击。互联网的内容生产机制可能因为这次改版而发生结构性变化。

  • Google DeepMind搞了个AI科研搭档,科学家要失业了?

    Google DeepMind搞了个”AI科研搭档”

    科学家做研究,最花时间的是啥?不是做实验,是”想假设”和”查文献”。一个靠谱的假设,往往要读几百篇论文、反复试错几个月甚至几年。Google DeepMind最近发布了一个叫Co-Scientist的多智能体系统,目标是让AI来干这件事。

    这个系统基于Gemini构建,但跟普通的聊天机器人不一样。它不是你问它答,而是真的在”做科研”——生成假设、跟自己”讨论”、再去文献里找证据验证,然后反复迭代,直到假设站得住脚。

    普通LLM的问题在于:它不确定时会瞎编,而且不会主动承认”这个结论有矛盾”。Co-Scientist的核心是,它能在多个专业智能体之间制造”争论”,让它们在讨论中发现逻辑漏洞,然后自己去文献里找证据修补。

    三个步骤,模拟科学家的思考过程

    Co-Scientist的运作分三个阶段:生成、讨论、验证。

    生成阶段,系统会根据你给的研究方向,产生一批可能的假设。这些假设不是随机生成的,而是基于已有的科学文献和数据库。

    讨论阶段最有意思。系统里有好几个”智能体”,每个扮演不同的角色——有的负责挑刺,有的负责找支持证据,有的负责检查逻辑一致性。它们会互相”吵架”,直到对某个假设达成一致意见。

    验证阶段,系统会去查文献,看看这个假设跟已知的研究是否矛盾,有没有实验数据支持。如果有矛盾,它会回过头去修正假设,然后重新走一遍流程。

    已经在用的场景

    Google已经在跟Google Cloud和Google Labs合作,让研究人员试用这个系统。目前的反馈是,它在”假设筛选”这个环节特别有用——人类科学家往往靠直觉和经验来判断一个假设值不值得深究,但直觉会出错,经验有盲区。Co-Scientist能把这些假设结构化地过一遍,帮人更快地找到值得深挖的方向。

    特别值得关注的是,Google正在把它应用到ALS(肌萎缩侧索硬化症)的疗法开发,还有衰老研究。这两个领域都有一个共同点:数据极其复杂,变量极多,人类研究者很难把所有线索串起来。AI的优势正好在这里——它能同时处理海量文献,发现人眼看不到的模式。

    下一步是跟实验自动化打通

    现在的Co-Scientist还停留在”纸上谈兵”阶段——它能生成和验证假设,但验证完了,还得人类去做实验。Google的下一步计划,是把这个系统跟实验自动化系统整合起来,让AI生成的假设能直接在实验室里被验证。

    如果这一步实现了,科研的效率提升会是数量级的。现在从一个假设到发表论文,往往要几年。如果假设生成、验证、实验、数据分析全都能由AI加速,可能几个月就能走完。

    当然,这里有个绕不开的问题:AI生成的假设,如果连人类都理解不了为啥它对,那还敢不敢照着做实验?这个问题,可能比技术本身更难回答。


  • Google AI眼镜实测——离’可用’还有多远?

    Google AI眼镜实测——离”可用”还有多远?

    TechCrunch 记者现场上手 Android XR 原型机,翻译、导航、识物全试了一遍

    Google Android XR AI眼镜原型机
    Google 在 I/O 2026 上展示的 Android XR 眼镜原型机(图片来源:Google)

    今年的 Google I/O,最让人眼前一亮的硬件不是手机,也不是平板,而是一副眼镜。准确说,是带显示屏的 Android XR 眼镜。去年 I/O 只闻楼梯响,今年记者终于戴上了原型机,实打实玩了一把。

    先说结论:能用,但还没到” everyday 佩戴”的程度。Google 自己也很诚实,先推仅音频版本试水,带屏版本今年晚些时候才扩大测试。看得出来,他们在和 Meta Ray-Ban、Snap 的竞争里,选择先稳住再出牌。


    戴上之后,怎么跟它交互?

    唤醒 Gemini 的方式很直觉:长按镜框右侧两秒,听到提示音就知道它在听了。有意思的是,演示版唤醒 Gemini 的同时也会自动开摄像头——不过市售版会让用户自己决定要不要开摄像头,这点隐私考量还是到位的。

    音乐播放是最快能上手的场景。场地太吵没测出音质上限,但有一点很明确:这副眼镜替代不了好耳机。它的优势在于”听得见人声”——散步、做家务时听听音乐,同时还能和人正常交谈,比 AirPods 的透传模式更自然。

    拍照按钮也在镜框上,按一下就能拍。照片会直接传到手机和手表上。你甚至可以跟 Gemini 说”拍张照,把这个人物变成动漫角色”——照片先走一趟 Google 服务器和 Nano Banana,处理完再推回来。I/O 会场 Wi-Fi 炸裂的情况下,这一来回大概要 45 秒

    “光凭实时翻译这一个功能,就足以让很多全球旅行者掏钱买这副眼镜。”——TechCrunch 记者评 Android XR 翻译体验

    三个场景,翻译最惊艳

    实时翻译是全场最佳。演示者快速说了一段西班牙语,眼镜自动检测语言,右眼上方的显示屏立刻跳出英文文本,同时 Gemini 在耳边念出来。那种”对方说话、你直接看到字幕”的感觉,真的很像科幻片。仅音频版也支持翻译,只是文字不显示在眼前,要看的话得低头瞄手机。

    导航的逻辑也巧妙。Gemini 激活手机上的 Google 地图后,转向信息会直接叠在视野里。你往前走,它显示下一个转弯;想确认方位,低头看地面上的蓝色圆点就行,和手机地图的操作逻辑完全一致,只是不用掏手机了。

    物体识别有点看环境。识别架子上的植物毫无压力,但面对一幅莫奈复制品时,Gemini 一开始没认出来——后来发现是摄像头没自动开启,手动打开后才勉强说出”这看起来像莫奈的画”。所以这个功能目前还挺依赖”你有没有记得开摄像头”。


    显示屏体验:清晰度和疲劳感是拦路虎

    目前原型机只有右眼上方一块显示屏,平台本身支持单屏、双屏、仅音频三种形态。显示的画面有点糊,记者分析可能和他们戴的处方隐形眼镜有关(一远一近),但闭上一只眼之后图像确实清晰不少——代价是另一只眼上方的视觉很快就开始疲劳。

    主屏幕可以放天气、倒计时这类小组件,也支持给谷歌地图、翻译设快速启动入口。未来用户应该可以自己决定眼前出现什么、不出现什么——这块的定制化空间挺大的。

    还有一个细节:原型机不能检测”戴上/摘下”,市售版会补上这个能力。所以现在测试时要手动开关,量产之后应该会是”戴上自动唤醒、摘下自动休眠”的节奏。


    和 Meta Ray-Ban 比,Google 这道题怎么解?

    Meta Ray-Ban 已经卖出了几百万副,Snap 也在迭代自己的眼镜。Google 这次选择和 Warby Parker、Gentle Monster、三星联合开发,明显是想用”设计 + 技术”双轮驱动来追赶。

    仅音频版今年先上,带屏版稍晚——这个节奏其实挺聪明的。先让市场适应”戴着眼镜跟 AI 说话”这件事,再推更复杂的显示交互,用户接受度会高很多。而且音频版也支持翻译、导航、拍照,核心场景其实已经覆盖了。

    价格还没公布,这是最关键的一道题。如果 Google 想把这款眼镜卖成”大众配件”而不是”极客玩具”,定价策略直接决定命运。Meta Ray-Ban 的成功,性价比是一大功臣。

    一句话总结:Android XR 眼镜的技术方向是对的,翻译和导航两个场景已经足够有说服力。剩下的挑战是:显示清晰度、佩戴舒适度、续航,以及——最终卖多少钱。
  • Google I/O 2026万字解读:Gemini 3.5 Flash炸场,24小时在线的AI助手来了

    Google I/O 2026万字解读:Gemini 3.5 Flash炸场,24小时在线的AI助手来了

    北京时间5月20日凌晨1点,Google I/O 2026在加州山景城开幕。如果说去年的大会还在讲”AI优先”,今年Sundar Pichai直接把话挑明了:”Google Search就是AI Search”。整场发布会看下来,一个很清晰的信号是:Google正在把Gemini塞进你能想到的所有产品里。

    Gemini月活用户已达9亿,过去一年Google处理的Token达3.2千万亿,同比增长7倍。这个体量,已经不是”在做AI”,而是”AI就是它本身”。

    Gemini 3.5 Flash:快到有点不讲道理

    这次发布的Gemini 3.5 Flash,官方说生成输出Token的速度大约是其他前沿模型的4倍,专为AI Agent和编码工具优化。性能上大概对标GPT-5.5,略逊于Claude Mythos。已经在Search、Gemini App、API全端口上线了。

    速度这个事儿,对AI Agent场景来说确实关键。你想,一个智能体要连续调用好几次模型,每次如果都要等几秒,用户体验直接崩掉。Flash这个”快”不是锦上添花,是能让Agent真正跑起来的前提。Google这次把这个模型免费开放给开发者用,底气挺足的。


    Gemini Spark:24小时在线的个人AI助手

    这个可能是整场发布会最实用的发布。Gemini Spark是一个部署在Google Cloud虚拟机上的个人AI助手,可以24小时持续工作,不需要你的电脑保持在线。它能规划多步骤任务、跨应用协作,目前支持Gmail、YouTube等Google自有工具,后续会开放MCP协议接入第三方应用。

    下周首先向美国地区的Google AI Ultra订阅用户开放,这个套餐的价格也从每月250美元降到了200美元。坦白说,如果Spark真的能做到”你说一句话,它帮你把事儿办了”,200美元一个月对于重度用户来说不算离谱。问题是,现在的AI助手在复杂任务上还是容易翻车,Spark能不能真正可靠地跑起来,得实际用一段时间才知道。


    搜索框的25年来最大升级

    Google搜索这次的升级,官方说是25年来最大的一次。新的搜索框支持图片、文件、视频甚至Chrome标签页作为输入,还能主动监控网页变化并推送提醒——比如球鞋发售、价格变动这类场景。

    这个方向其实挺明确的:搜索不再是你主动去”搜”,而是AI主动帮你”盯”。你告诉它你在等什么,它帮你守着,有变化就通知你。这个逻辑一旦跑通,传统搜索引擎的”关键词匹配”模式基本上是被降维打击了。


    硬件和其他:智能眼镜秋天见

    Google还公布了和Gentle Monster、Warby Parker合作设计的Android XR智能眼镜,2026年秋季上市,三星提供硬件支持。用户可以全天佩戴,通过耳机接收Gemini的语音回答。这个赛道现在有好几家都在做,Apple的Vision Pro走的是高端路线,Google这次看起来是想走更日常的路。

    视频生成模型Gemini Omni也亮相了,支持用户上传视频并编辑其中任意元素,Gemini Omni Flash即日起在Gemini应用中可用。这个能力如果做得足够好,短视频创作者和营销团队大概会第一时间用起来。

    • Gemini 3.5 Flash已全面上线,输出速度领先竞品4倍
    • Gemini Spark个人智能体下周向Ultra用户开放,月费降至200美元
    • Google搜索迎来25年来最大升级,支持多模态输入和主动监控
    • Android XR智能眼镜2026年秋季上市,全天佩戴+语音交互
  • Gemini Omni实测:我把deepfake视频发给老公,他信了

    去年我做过一个实验:用 Gemini 把我们家小孩的毛绒玩偶”deepfake”成去度假的样子,看看 Google 广告里演示的那些功能到底靠不靠谱。当时我就觉得,AI 生成视频的工具已经好到让人有点不安了。

    一年过去,Google 推出了新的生成模型家族,叫 Omni。官方说法是,它终有一天能把任意类型的输入(照片、视频、文字)转换成任意类型的输出。当然目前第一步还是生成视频。第一个公开发布的版本叫 Omni Flash,已经上线 Google 的 AI 视频平台 Flow。

    Gemini Omni AI生成视频示例
    本文所有图片和视频均由 Google Gemini 生成(图源:The Verge)

    把 Buddy 玩偶送去”度假”

    这次我请回了去年出镜的那只毛绒小鹿 Buddy,让它再跑一趟。给 Omni 的提示词是:”做一个蒙太奇,Buddy 打包行李准备登上邮轮去热带度假。氛围要可爱、好玩。Buddy 在行李箱里塞了件搞笑的东西,后面会在视频里用到。”

    Omni 让 Buddy 塞了一罐蜂蜜进去。到了视频后面,Buddy 伸手去拿,拿的姿势像在拿防晒霜。”呃哦,”角色说了一句。

    说实话(哦不行,我不能用这两个字),这段小幽默拍得还真不赖。但是——蜂蜜罐子在视频里一直在变:从玻璃罐,变成装水的透明挤压瓶,又变回装蜂蜜的挤压瓶。至于视频最后一帧那画面,我甚至不知道该怎么描述,就像模型把刚才生成的所有元素全吐出来堆在一起了。

    Omni 生成视频的效果比5个月前我测 Veo 时要好,角色一致性提升了。但即使是最好的片段,也还是会有 AI 的”跳跃惊吓”——比如 Buddy 跳伞的时候突然整个朝向翻转了。

    Deepfake 我自己

    Omni 号称的强项之一,是能把 AI 生成的内容”贴”到真实视频上。于是我让 Buddy 休息,换自己上场。用一段面无表情的自拍视频当底子,让 Omni 生成我吃一盘意面、坐在飞机座位上、站在埃菲尔铁塔前咬一口法棍的视频。

    结果让我有点措手不及。AI 告诉我的一些痕迹还是能看出来的:叉子碰碗的声音有点过于”制造”了;飞机视频背景里有个女性出现了两次(这显然不对);埃菲尔铁塔那段,AI 版本的我把头发扎成了马尾——我平时根本不扎马尾。

    但除了这些小毛病和一种说不清的”诡异感”,视频的逼真程度已经足够吓人。


    连我老公都骗过了

    我把吃意面的片段给我老公看了。他知道我在测 AI 视频工具,但我没告诉他画面里哪些部分是 AI 生成的。结果他没有看出来——他以为我就是对着一个摄像头在吃面,唯一觉得不对劲的地方是那个碗看着眼生。至于”吃面”这个动作本身,逼真到足以骗过跟我住了十年的人

    其他几个埃菲尔铁塔片段,有些看起来有点卡通,但其中有一个足够逼真,你可能要反复看几遍才能察觉是 AI 做的。我自己一看那个扎马尾的版本就知道不是我,但我不确定别人能不能看出来。这种感觉让我有点不舒服。

    不是免费的,而且积分消耗挺快

    当然,这一切都不是免费的。生成视频要消耗积分,根据场景长度和输入素材不同,消耗 15 到 40 积分不等。单次编辑要消耗 40 积分。我现在用的是每月 20 美元的 AI Pro 套餐,每月有 1000 积分。测了大约 20 个片段、部分做了编辑之后,我剩 145 积分。

    如果你对视频有比较具体的想法,可能要跟模型来回折腾不少次才能接近你想要的效果——每次编辑都要烧积分。

    我们确实已经深陷”恐怖谷”了。

    麻木了,但不代表没事

    说句实话(唉),我有点累了。几年前第一次测 Veo 3 的时候,我被它生成的真实感震惊了。过去几年,我一次又一次被 AI 生成假人、假照片的容易程度震惊。按理说 Omni 也应该让我震惊才对——我想它确实让我震惊了,但那种冲击力已经钝了。

    做出”以假乱真”的 AI 视频,还没有 Google 想让你相信的那么容易。但 Omni 确实在某些肉眼可见的维度上比 Veo 强。只要你有一个 Google 账号和一张信用卡,你就能拍一段自己坐在家里的视频,然后让它看起来像你正坐在飞往毛伊岛的航班上——付出的努力几乎可以忽略不计。

    我们可能还没到 Hassabis 说的”奇点的山麓”那么夸张,但确实已经深陷恐怖谷之中了。

  • AlphaFold拿诺奖才5年,Google就开始转向了

    上个星期 Google I/O 的大会上,DeepMind CEO Demis Hassabis 上台说了一句话:”我们正站在奇点的 foothills(山麓)。”奇点嘛,就是那个 AI 智能超过人类、世界被彻底改变的理论时刻。听起来挺玄的。

    但仔细看他说这话的语境,就有点意思了。当时台上在讲 Google 的 AI 科研工具,重点展示了一段视频——用 WeatherNext(Google 的天气预报 AI)提前预警了去年 Hurricane Melissa 在牙买加的灾难性登陆,可能救了不少人。这确实是了不起的成就,但它跟”奇点”还差得远呢。

    Demis Hassabis at Google I/O
    Demis Hassabis 在 Google I/O 2026 上讲述 AI for Science 的新方向(图源:MIT Technology Review)

    两条路线的分歧

    这件事其实暴露了 Google 在”AI for Science”上的两条路线之争。一条是做专门的科研工具——比如 WeatherNext 预测天气、AlphaFold 预测蛋白质结构、AlphaGenome 做基因研究——这些工具针对特定科学问题设计,效果扎实,已经被全世界 300 多万研究人员在用。

    另一条路线更有野心:做出能自主做科研的 AI 智能体。不需要人类一步一步指导,AI 自己就能提出假设、设计实验、得出结论。这就是今年 Google I/O 上发布的 Gemini for Science 包背后的逻辑——把好几个基于大语言模型的科研系统整合到一个品牌下面。

    “我们正朝着这样的 AI 前进:它不只是辅助科学研究,而是开始自己做科学。”——Pushmeet Kohli,Google Cloud 首席科学家

    AlphaFold 的诺贝尔奖得主,被调去搞 AI 编程了

    这条新闻最让人玩味的地方来了。上个月《洛杉矶时报》曝出:Google Fellow John Jumper——就是靠 AlphaFold 拿了诺贝尔奖的那位——现在被调去搞 AI 编程,不再专门做科研 AI 工具了。

    这不难理解。Google 最近在 AI 编程工具上被 Anthropic 的 Claude Code 和 OpenAI 的工具压了一头,声誉受损,当然要把最顶尖的人才调过去追赶。但这也释放了一个信号:Google 正在把资源和注意力从”专门科研 AI 工具”往”通用 AI 科研智能体”偏移。


    AI 自己证伪数学猜想,意味着什么

    就在本周,OpenAI 宣布他们的一个模型证伪了一个重要的数学猜想——据一些数学家说,这是生成式 AI 迄今对数学领域做出的最有意义的贡献。有意思的是,OpenAI 用的这个模型并不是专门为数学设计的,而是一个通用推理模型,属于 GPT-5.5 那个系列。

    这说明通用 AI 智能体确实已经开始在科研领域做出实质性贡献了。如果它们能在数学上做到,那么在其他科学领域(当然要慢一些,因为科学结论需要实验验证)大概也只是时间问题。

    Gemini for Science 现在能干什么

    本次 I/O 发布的 Gemini for Science 包含两个主要工具:AI Co-Scientist(生成科研假设)和 AlphaEvolve(优化算法)。目前还没对公众开放,但 Google 已经允许研究人员申请试用权限了。

    早期测试的反馈不错。斯坦福大学的遗传学家 Gary Peltz 在《自然·医学》上发文,把用 AI Co-Scientist 比作”咨询德尔菲神谕”——也就是问神的意思。这个比喻挺传神的:AI 给出的假设不一定对,但需要人类专家去判断和验证。

    当然,专门的科研工具(比如 AlphaFold)和通用 AI 科研智能体并不是非此即彼的关系。智能体可以调用专门工具作为”工具库”的一部分。没有 AlphaFold 的帮助,任何 AI 系统目前都别想把蛋白质折叠结构预测准。但 Google 显然在把公众形象——以及至少一部分资源和人才——从专门工具的开发,转向更通用的方向。


    “合作者”,而不是”替代者”

    Google 在对外表态上很谨慎,一直强调这些科研 AI 智能体是”加速人类科学家工作的工具”,而不是取代他们。比如,这个工具叫”AI Co-Scientist”而不是”AI Scientist”,这个命名选择看起来相当刻意。

    Hassabis 在采访里也用了类似的说法:”在未来十年左右,我们应该把 AI 看作帮助科学家的神奇工具。再往后,就很难有把握了,但也许这些系统会变得更像合作者。”

    但问题在于:一个有效的科研合作者,本身必须先是一个合格的科研工作者。如果 Hassabis 说的”奇点的山麓”不是吹牛,那么 AI 科研智能体最终超过人类同行,并不是天方夜谭。

    Hassabis 在 I/O 期间跟记者 Mike Allen 聊天时提到,他最早被 AI 吸引,是因为看到物理学在 1970 年代之后进展停滞了;他在想,人类心智是不是在这个领域已经触到了天花板,也许 AI 能帮我们突破这个壁垒。超人类的 AI 科研智能体,确实符合这个描述。

    我们也许永远到不了那一步。但 Google 看起来正在往那个山顶爬。只是不知道,等到了之后,站在山顶的还会不会是我们人类。

  • Gemini CLI:104.5k Stars!Google官方终端AI智能体,让命令行成为你的AI搭档

    Gemini CLI:104.5k Stars!Google官方终端AI智能体,让命令行成为你的AI搭档

    Gemini CLI 特色图

    📌 项目简介

    Gemini CLI 是 Google 官方开源的终端 AI 智能体,把 Gemini 大模型的能力直接搬进了你的命令行。它不只是一个聊天工具——它能读你的代码库、帮你写代码、调试 Bug、执行终端命令,甚至直接操作文件,真正实现了「在终端里有一个懂你项目的 AI 搭档」。


    ⚙️ 安装要求和过程

    📦 环境要求

    • Node.js >= 18(必须!)
    • npm 或 npx(自带)
    • Google 账号(登录获取免费额度)
    • 终端:支持 macOS / Linux / Windows

    🚀 快速安装(3步搞定)

    最简单的方式,一步安装:

    npm install -g @google/gemini-cli

    或者用 npx 直接运行(无需安装):

    npx @google/gemini-cli

    安装完成后,在终端输入以下命令启动:

    gemini

    首次使用会用浏览器打开 Google 登录页面,授权后即可开始使用,免费版有每天 1000 次请求额度,对个人使用完全够用。


    💡 核心功能

    🔍 1. 全代码库理解

    Gemini CLI 不是「瞎猜」你的代码,它能真正读取和理解整个项目目录。你问它「这个函数的逻辑是什么」,它会去读对应的文件,给你准确的答案,而不是泛泛而谈。

    🛠️ 2. 代码生成与执行

    直接让它写代码、改 Bug、重构函数,它生成完还能直接帮你写到文件里。更厉害的是它可以在沙箱环境里执行代码,验证结果后再提交,减少低级错误。

    🔗 3. 内置 Google 工具集成

    因为是第一方工具,Gemini CLI 可以直接调用 Google 的生态:搜索网页、读取 Gmail、管理日历、操作 Google Drive 文件……这些都不需要额外配置,登录账号就能用,真正的一体化体验。

    📋 4. 多模态支持

    不只处理文字——你可以把截图、设计图、PDF 文档直接丢给它,它能看懂图片内容、提取 PDF 里的文字、分析表格数据。写前端的时候直接把设计稿截图发过去,它能帮你写出对应的 HTML/CSS,这体验真的很丝滑。

    ⚡ 5. 超长上下文窗口

    Gemini 的杀手锏就是上下文长度,CLI 版本同样支持最高 100 万 token 的上下文窗口(付费版)。什么概念?你可以把整个中型项目的代码库全部塞进去,它都能记住,不需要像其他工具那样担心「忘记前面的对话」。


    🎯 典型使用场景

    场景一:接手陌生项目,快速上手

    刚 clone 下来一个开源项目,看不懂项目结构?在终端里直接输入 gemini 启动,然后问它:「这个项目的入口文件在哪?主要业务逻辑是怎么流转的?」它会读一遍整个目录,给你画出一张「项目地图」,比自己瞎看文档快太多了。

    场景二:写代码卡壳,AI 当结对编程伙伴

    正在写一个复杂的正则表达式或者递归算法,脑子转不动了?不用切换窗口去网页版 ChatGPT,直接在终端里问 Gemini CLI,它看着你的代码上下文给建议,甚至直接帮你写完整个函数。最关键是——它知道你项目里已有的工具和风格,不会给你写出风格迥异的代码。

    场景三:自动化日常开发任务

    需要批量重命名文件、生成项目的 README、写单元测试、或者分析 git log 找出是谁引入了某个 Bug?这些琐碎但耗时的任务,直接告诉 Gemini CLI 去做,它能在终端里直接执行,你只需要最后确认一下结果就行。


    🌟 推荐理由

    我推荐 Gemini CLI,最直接的原因就是:它是真的「懂终端」的 AI 工具

    之前用过不少 AI 编程助手,但大多要么是在网页里聊天(切换窗口很打断思路),要么是 VS Code 插件(离开编辑器就用不了)。Gemini CLI 不一样——它就在你的终端里,和你日常的 cdgitnpm 命令待在一起,想问什么直接问,完全不需要切换上下文。

    另一个很打动我的点是免费额度够大方。每天 1000 次请求,对个人开发者来说基本上用不完。当然如果你需要 100 万 token 的超长上下文,那就要开付费了,但普通使用免费版完全够用。

    当然它也有不足——相比 Claude Code,Gemini CLI 的代码生成质量偶尔会稍逊一筹,复杂逻辑可能需要多轮对话才能搞定。但作为一款终端原生的免费 AI 助手,它已经足够好用,特别是如果你本来就在用 Google 生态(Gmail、Drive 等),整合体验会很流畅。


    📥 下载地址

    🌐 官方网站:geminicli.com

    🐙 GitHub 仓库:github.com/google-gemini/gemini-cli(104.5k ⭐)

    📦 npm 安装:npm install -g @google/gemini-cli

    📚 官方文档:查看 GitHub README

    🚀 如果你每天都在用终端,Gemini CLI 值得一试。
    把它当成你的「终端里的 AI 结对编程伙伴」,你会发现开发效率提升不止一点点。

  • Google I/O 2026:AI代理生态系统为何让普通用户困惑

    Google I/O 2026锛欰I浠g悊鐢熸€佺郴缁熶负浣曡鏅€氱敤鎴峰洶鎯?/h2>

    鏈懆鐨凣oogle I/O寮€鍙戣€呭ぇ浼氫笂锛岃胺姝屾弧鎬€婵€鎯呭湴鎺ㄥ嚭浜嗕竴绯诲垪AI浠g悊浜у搧锛岃瘯鍥惧悜娑堣垂鑰呭睍绀轰汉宸ユ櫤鑳藉浣曟敼鍙樻垜浠娇鐢ㄧ綉缁滅殑鏂瑰紡銆備絾鐜板疄鏈夌偣灏村艾鈥斺€旇繖浜涗骇鍝佷笉浠呭懡鍚嶆贩涔憋紝鑰屼笖澶ч儴鍒嗗姛鑳介兘琚攣鍦ㄤ粯璐瑰鍚庨潰锛屾櫘閫氱敤鎴锋牴鏈懜涓嶇潃杈广€?/p>

    Google AI浠g悊姒傚康鍥? style=
    Google鍦↖/O澶т細涓婂睍绀虹殑AI浠g悊姒傚康鍥撅紙鍥剧墖鏉ユ簮锛歍echCrunch锛?/figcaption>

    涓€鍫嗘柊鍚嶅瓧锛岀敤鎴疯涓嶄綇

    璋锋瓕杩欐鎺ㄥ嚭浜嗗ソ鍑犱釜AI浠g悊浜у搧锛屾瘡涓兘鏈変笉鍚岀殑鍚嶅瓧鍜屽畾浣嶃€傞鍏堟槸”淇℃伅浠g悊”锛坕nformation agents锛夛紝杩欑畻鏄胺姝屾彁閱掓湇鍔$殑AI鍗囩骇鐗堬紝鍙互鍦ㄥ悗鍙?4灏忔椂杩愯锛屽府浣犺拷韪劅鍏磋叮鐨勮瘽棰橈紝姣斿浠锋牸鍙樺寲銆佸ぉ姘旈璀︾瓑绛夈€?/p>

    鐒跺悗鏄?strong>Gemini Spark锛岃繖鏄竴娆?涓汉”AI浠g悊锛屽彲浠ユ帴鍏ヤ綘鐨凣mail銆佽胺姝屾枃妗c€丟oogle Workspace锛屽府浣犵鐞嗘暟瀛楃敓娲汇€傝胺姝屾紨绀虹殑渚嬪瓙鍖呮嫭浠庨偖浠堕€氳閲屾彁鍙栦富棰樸€佹暣鐞嗗搴簱瀛樸€佽褰曡喘鐗╂竻鍗曪紝鐢氳嚦瑙勫垝鍥綋鏃呰銆傝寰楁尯缇庡ソ锛屼絾鏅€氱敤鎴峰彲鑳戒細鎯筹細鎴戠敤缇よ亰鎴栬€呴偖浠朵笉灏卞浜嗭紵

    杩樻湁Android Halo锛岃繖鏄敤鏉ユ帴鏀禨park閫氱煡鐨勫姛鑳解€斺€斿锛屼綘娌$湅閿欙紝鍏夋槸閫氱煡鍔熻兘杩樻湁涓嫭绔嬪搧鐗屻€傝嚦浜庝负鍟ヨ杩欎箞鎼烇紝鍚堢悊鐨勭寽娴嬫槸璋锋瓕鍐呴儴浜у搧鍥㈤槦绔炰簤澶縺鐑堬紝鍝€曡鐢ㄦ埛鍥版儜涔熻绐佸嚭鑷繁鐨勫姛鍔炽€?/p>

    Gemini搴旂敤閲岃繕浼氫笂绾夸竴涓悕涓?姣忔棩绠€鎶?锛圖aily Brief锛夌殑鍔熻兘锛屽彲浠ヤ粠浣犵殑Gmail鏀朵欢绠便€佹棩鍘嗗拰浠诲姟涓彁鍙栦俊鎭紝鐢熸垚涓€у寲鎽樿銆傚惉璧锋潵涓嶉敊锛屼絾闂鏄€斺€旇繖浜涗笢瑗垮埌搴曞湪鍝紵

    浠樿垂澧欏悗鐨凙I锛屾櫘閫氫汉鐢ㄤ笉涓?/h3>

    鏇村叧閿殑闂鏄紝杩欎簺浜у搧澶ч儴鍒嗕紭鍏堝悜璋锋瓕鐨?strong>Ultra璁㈤槄鐢ㄦ埛寮€鏀撅紝杩欎釜濂楅姣忔湀瑕?00缇庡厓銆備俊鎭拰Spark浠婂浼氬悜Ultra鐢ㄦ埛寮€鏀撅紝Halo瑕佸埌”浠婂勾鏅氫簺鏃跺€?鎵嶆帹缁欏畨鍗撶敤鎴凤紝Daily Brief姝e湪鍚戠編鍥界殑Ultra銆丳ro鍜孭lus璁㈤槄鐢ㄦ埛鎺ㄩ€併€?/p>

    涔熷氨鏄锛屽鏋滀綘涓嶆槸姣忎釜鏈堢牳100缇庡厓鐨勯偅鎵?AI閲嶅害鐖卞ソ鑰?锛屼綘灏卞彧鑳界湅鐫€杩欎簺鍔熻兘娴佸彛姘淬€傝胺姝岃〃绀轰細鍦?鍚堥€傜殑鏃舵満”鍚戝厤璐圭敤鎴峰紑鏀撅紝浣嗙幇鍦ㄦ樉鐒舵洿鍦ㄤ箮浠樿垂鐢ㄦ埛鐨勫弽棣堛€?/p>


    鐐妧杩樻槸瑙e喅鐪熷疄闂锛?/h3>

    璋锋瓕鍦ㄥぇ浼氫笂鐨勬紨绀轰篃娌″府涓婂繖銆傛瘡涓紨璁茶€呭嚭鍦洪棿闅欓兘鍦ㄥ睍绀篈I鐢熸垚鐨勫浘鐗囷紝杩樻挱鏀句簡涓€娈甸害鐗囬鏍肩殑AI鍔ㄧ敾锛岄噷闈㈢殑Tensor鑺墖锛圱PU锛変細璇磋瘽銆傚湪瀹夊崜鐪奸暅鐨勬紨绀轰腑锛岃胺姝屽睍绀鸿繖娆捐澶囧彲浠ユ妸浣犳媿鐨勭収鐗囪浆鎹㈡垚鍏朵粬鍐呭鈥斺€旀瘮濡傛媿涓€寮犲彴涓嬭浼楃殑鐓х墖锛屼慨鏀瑰悗鍔犱笂涓€鑹樻紓娴殑椋炶墖锛岀劧鍚庡彂鍒板畨鍗撴墜琛ㄤ笂銆?/p>

    鏄尯閰风殑锛屼絾涓轰簡寤烘暟鎹腑蹇冿紝鏈変汉瀹惰寮哄埗寰佹敹鍘讳慨杈撶數绾胯矾锛岃繖鍊煎緱鍚楋紵鏅€氱敤鎴烽渶瑕佺殑鍙笉鍙槸杩欎簺鑺遍噷鑳″摠鐨勫皬鍔熻兘锛屾墠鑳芥帴鍙楀姝ゅ墽鐑堢殑绀句細鍙樺寲銆?/p>

    鐜板疄鏄紝澶у鏁颁汉鐜板湪鎶夾I绛夊悓浜庢浛浠d紶缁熸悳绱㈢殑鑱婂ぉ鏈哄櫒浜恒€備粬浠笉瑙夊緱AI鍥剧墖銆佽棰戞ā鍨嬫槸浠€涔堜护浜烘儕鍙圭殑鍒涗綔绐佺牬锛屽弽鑰岃涓哄畠浠槸鍒堕€?AI鍨冨溇鍐呭”鐨勫伐鍏封€斺€旇繖浜涘唴瀹瑰浠婂厖鏂ョ潃绀句氦骞冲彴锛岃繕瀵艰嚧鑷鍚庨櫌瑕佸缓涓嶉渶瑕佺殑鏁版嵁涓績銆?/p>

    • 鏅€氱敤鎴疯浠樿处鍗曘€佷氦鎴跨銆佸姞娌广€佷拱鑿?/li>
    • 瑕佸湪AI鎷涜仒绯荤粺鍥犱负涓€鐐规妧鏈粏鑺傚氨鎷掓帀绠€鍘嗙殑鎯呭喌涓嬫壘宸ヤ綔
    • 瑕佸钩琛″厖婊″帇鍔涚殑鐢熸椿锛岃€屾渶杩戠殑鎶€鏈繘姝ュ弽鑰屾垚浜嗚礋鎷?/li>

    濡傛灉璋锋瓕鑳芥崟鎹夊埌鐪熷疄鐨勬秷璐硅€呮儏缁紝瀹冩湰鍙互寮鸿皟AI浠g悊鑳藉噺灏戝睆骞曚娇鐢ㄦ椂闂淬€備篃灏辨槸璇达紝鐢ㄦ埛涓嶇敤鑺辨椂闂村仛璋冪爺銆佹暣鐞嗐€佽拷韪俊鎭拰鏂伴椈锛屼唬鐞嗗彲浠ユ帴绠¤繖浜涙棩甯镐换鍔★紝璁╃敤鎴疯兘涓嬬嚎锛屽幓杩囨病鏈夌數鑴戝共鎵扮殑鐪熷疄鐢熸椿銆?

    绔炰簤瀵规墜宸茬粡璧板湪鍓嶉潰

    涓庢鍚屾椂锛孭oke銆丳oppy銆丷PLY銆乄ingman杩欑被涓绘墦娑堟伅浜や簰鐨凙I鍒濆垱鍏徃锛屾鍦ㄥ睍绀轰竴绉嶆洿鑷劧鐨勪笌AI浠g悊浜や簰鐨勬柟寮忥細閫氳繃澶у姣忓ぉ閮藉湪鐢ㄧ殑鐭俊鍔熻兘銆備綘浠ュ悗鑳藉彂鐭俊缁橲park鍚楋紵璋锋瓕I/O涓婄殑浠h〃鍚硦鍦拌〃绀猴紝鏈潵鏌愪釜鏃堕棿鐐逛細瀹炵幇銆?/p>

    杩欏拰璋锋瓕鏃╂湡鐨勭瓥鐣ュお涓嶄竴鏍蜂簡銆傚綋鏃跺畠鎺ㄥ嚭鐨凣mail鏄厤璐圭殑閭欢鏈嶅姟锛屾瘮鐜版湁閫夐」濂藉緱澶氾紱璋锋瓕鎼滅储涔熸槸鍏嶈垂鏁寸悊鏃╂湡缃戠粶锛岃鎵€鏈変汉閮借兘鏇存柟渚垮湴鑾峰彇淇℃伅銆?/p>

    Google I/O鏈彲浠ユ槸AI浠g悊閫氳繃绠€鍗曘€佸厤璐圭殑娑堣垂鑰呬骇鍝佽Е杈炬墍鏈変汉锛屽疄鐜扮牬鍦堢殑鏃跺埢锛堝彧闇€瑕佷竴涓搧鐗屽悕锛侊級銆傝繖涓骇鍝佺敋鑷冲彲鑳戒細璁╁ぇ瀹跺儚褰撳勾姹侴mail閭€璇蜂竴鏍锋姠鐫€瑕併€備絾鐜板疄鏄紝璋锋瓕鐨勬柊AI浠g悊鈥斺€旇繖浜涜兘涓烘垜浠伐浣溿€佹弧瓒虫垜浠釜鎬у寲闇€姹傜殑宸ュ叿鈥斺€斿澶у鏁颁汉鏉ヨ浠嶇劧閬ヤ笉鍙強銆?/p>


    馃搸 鍘熸枃鏉ユ簮锛?a href=”https://techcrunch.com/2026/05/21/google-is-pitching-an-ai-agent-ecosystem-to-consumers-who-may-not-buy-it/” style=”color:#6366f1;” target=”_blank”>Google is pitching an AI agent ecosystem to consumers who may not buy it – TechCrunch
  • 谷歌I/O 2026的尴尬:AI智能体这么强,为啥普通人无感?

    谷歌I/O 2026的尴尬:AI智能体这么强,为啥普通人无感?

    谷歌I/O 2026大会上周落幕,整场活动最值得期待的新功能之一,是面向消费者的AI智能体(AI agents)。但说实在的,这也是整场发布会里最让人摸不着头脑的部分。

    信息智能体(information agents)正式亮相,这是老牌Google Alerts服务的AI升级版。这类智能体可以7×24小时在后台运行,帮你跟进感兴趣的主题——市场趋势、价格追踪、恶劣天气预警之类的。

    还有Gemini Spark,这是一款”个人”AI智能体,可以集成Gmail、Google Docs、Google Workspace等谷歌产品,帮你管理数字生活。谷歌说,这个助手可以处理日常任务:整理通讯邮件主题、清点家庭库存、记录需要补货的物品,或者帮你规划和协调朋友的组团旅行。

    “谷歌在演示中举了一个非常偏向工程师思维的例子:你可以用它组织社区街区派对——好像这种事除了群聊或者发几封邮件之外还需要什么管理一样。”

    功能很多,但得先掏钱

    上面说的这些产品,很多还没正式上线,至少不会立刻向大众开放。目前谷歌的目标用户是重度用户:也就是订阅了每月100美元的Google Ultra计划的”AI信仰者”。

    美国地区的Google Pro和Ultra订阅用户今年夏天就可以用上信息智能体,Spark很快会向Ultra订阅用户开放。Halo(追踪Spark通知的功能)将在”今年晚些时候”推送给安卓用户。Daily Brief(每日简报)正在向美国的Ultra、Pro和Plus订阅用户逐步推出。

    Google I/O 2026 AI Agents
    Google I/O 2026 展示的AI智能体功能(图片来源:TechCrunch)

    这么多功能陆续上线之后,我们可以用AI智能体的入口会多到让人不知道从哪里开始用。但这得先付费。

    普通消费者为什么不买账?

    谷歌在这场活动上没能挽回口碑。每个演讲者上台间隙都在闪一些傻乎乎的AI生成图像,还放了一段很尬的AI生成动画,里面有类似肉桂Toast Crunch的会说话的Tensor芯片。

    在安卓眼镜的演示中,谷歌展示了这款设备(后续会支持拍照功能)如何用AI把用户拍的照片改成别的内容。演示内容是,演讲者拍了一张台下观众的照片,然后修改成头顶有一艘飞艇的样子,再发给自己的安卓手表。

    好吧,是有点意思,但为了给数据中心建新的输电线,有人家的房子要被强制征收拆掉,这值得吗?


    人们真正需要的是什么?

    人们需要的可不止是这些花里胡哨的小功能,才会接受如此剧烈的社会变化。

    往年的谷歌I/O会推出新的消费电子设备,比如Pixel手机、Nest Hub,还有新的安卓功能,比如2018年让所有人惊叹的餐厅、沙龙预订服务。那些技术都被定位成解决日常生活小麻烦的工具。

    现在这家科技巨头展示的是新模型(不过还没准备好发布的Gemini Pro 3.5没亮相),还有开发者平台,却基本忘了自己做的这些东西是给谁用的:普通老百姓。他们不想去记这东西叫Gemini还是Spark、Halo还是信息智能体,也不想知道要去哪里才能用上。

    这些人有真正想要解决的问题:他们要付账单、交房租,要加油、买groceries,还要在AI招聘系统因为一点技术细节就拒掉简历的环境里找工作。他们要平衡充满压力的生活,而最近科技的发展反而成了负担。

    AI智能体的真正价值是什么?

    如果谷歌真的调研过消费者的真实想法,就会发现,AI智能体其实可以降低屏幕使用时间。也就是说,不用花时间调研、整理、追踪信息和新闻,智能体可以接管这些日常任务,让用户离线去好好过现实生活。

    这个信息其实会引起消费者的共鸣,尤其是年轻人,他们现在正在追捧怀旧复古技术,通过”老人式”的爱好和手工艺来缓解压力,还正在通过放弃约会软件、参加线下活动来重新发现现实社交的力量。

    简单来说,谷歌没能成功推销AI智能体有多酷,原因有两个:一是没有演示智能体能为普通用户解决什么问题,二是把这些工具放在付费墙后面,限制了触达范围。

  • 谷歌I/O 2026:Gemini Spark来了,AI智能体时代正式开启

    谷歌的AI大跃进

    昨天凌晨1点,谷歌I/O大会又在加州山景城拉开帷幕。CEO皮查伊开场就甩出一组数字:过去12个月,谷歌处理的Token量达到3.2千万亿个,同比增长7倍。Gemini应用的月活用户突破9亿。这些数字背后,是谷歌把AI智能体全面塞进所有产品的野心。

    这场发布会的核心逻辑很清楚:Gemini不再只是那个你打开对话框才能聊天的助手,它要变成一个持续运行、跨应用执行任务的智能代理。你可以理解为,谷歌想把AI从”工具”升级为”同事”。

    Gemini将从一个对话助手进化为持续运行的全天候AI代理,可以替你追踪信息、生成内容、调用工具,甚至直接完成下单和操作流程。

    几个值得关注的发布

    AskYouTube功能会在YouTube里加入聊天机器人式交互界面。你可以通过自然语言找到符合搜索意图的视频片段,直接跳转过去。这个功能预计今年夏天在美国扩大推广范围。

    DocsLive功能支持用户通过语音与Google Docs互动,不需要输入提示词。演示中,Gemini可以自动提取演讲要点,还能从Google Drive和Gmail调取信息,辅助用户高效创建和编辑文档。

    Gemini 3.5 Flash模型是这次发布的重头戏。谷歌称其生成速度是其他前沿模型的四倍,专为复杂任务和现实开发场景设计。在AI代理和编码工具领域,这个速度优势会让它更有竞争力。

    Gemini Spark是基于Gemini 3.5运行的全天候个人AI助手。即使你的电脑关闭,它也可以继续工作。这是谷歌对OpenAI的ChatGPT和Anthropic的Claude直接发起的挑战。


    硬件和基础设施布局

    谷歌在AI基础设施上的投入也在加速。2026年,谷歌AI相关支出预计达到1800亿-1900亿美元。最新一代TPU(张量处理单元)TPU8分为两类,分别用于大规模AI训练和快速响应用户请求。

    还有AndroidXR智能眼镜,谷歌预告会与GentleMonster、WarbyParker和三星合作推出这款硬件。分为语音交互和信息投影两种形式,用户可以通过眼镜完成导航、下单等操作。

    这意味着什么

    谷歌这次发布会传递的信号很明确:AI智能体不再是概念,而是要全面落地到每个人的日常工作中。从搜索、文档、视频到购物,谷歌想把AI渗透进你数字生活的每一个角落。

    对于用户来说,这意味着更便捷的体验。但对于谷歌的竞争对手来说,这意味着更激烈的竞争。OpenAI、Anthropic、Meta,大家都在抢这个”AI智能体”的入口。2026年的AI赛道,会比去年更精彩。