作者: hiyoho

  • LangGraph —— 用图结构编排生产级 AI Agent,让复杂工作流清晰可观测

    LangGraph Logo

    GitHub 29K+ Stars

    LangGraph

    生产级 AI Agent 编排框架,用图结构掌控复杂工作流

    项目简介

    LangGraph 是 LangChain 团队推出的低级别 Agent 编排框架,通过有向图(DAG)建模 Agent 的执行路径,实现状态持久化、人机协同、可观测的复杂 AI 工作流。已将 LangChain 从”链式调用”升级为”图式编排”,是多步骤、有条件分支、需要人工审核的 Agent 系统的工程化首选方案。

    安装要求与过程

    环境要求
    • Python >= 3.9
    • pip 包管理器
    • (可选)LangSmith 账号用于可视化管理
    # 快速安装
    pip install -U langgraph

    # 安装 LangGraph Studio(可视化编辑器)
    pip install langgraph-studio

    # 验证安装
    python -c “import langgraph; print(langgraph.__version__)”

    核心功能

    1
    图结构编排(Graph Orchestration)
    用节点(Node)和边(Edge)显式定义 Agent 执行路径,支持条件分支、循环、并行执行,执行过程完全可观测、可回溯、可干预。

    2
    持久化状态(Persistent State)
    自动将 Agent 执行状态持久化到存储后端(内存/SQLite/PostgreSQL),支持从任意断点恢复执行,无需重复处理已完成步骤,是长时间运行 Agent 的基石能力。

    3
    人机协同(Human-in-the-Loop)
    可在 Agent 执行的任意节点暂停,等待人工审核、修改状态或批准下一步操作,适用于高风险决策场景(如金融审批、医疗诊断辅助)。

    4
    多 Agent 协同(Multi-Agent)
    原生支持 Sub-graph(子图)和 Send(动态分发),可构建层级化多 Agent 系统,不同 Agent 负责不同子任务,通过图结构协调通信与状态共享。

    5
    LangSmith 深度集成
    一键接入 LangSmith 可视化追踪平台,实时查看 Agent 执行轨迹、状态变化、Token 消耗和延迟指标,复杂 Agent 行为的调试效率提升 10 倍以上。

    典型使用场景

    场景一:复杂客户支持 Agent
    构建需要多步骤推理的客户支持系统——先理解用户意图(分类节点),再查询知识库(RAG 节点),然后生成回复(LLM 节点),最后人工审核敏感回复(人机协同节点)。每个步骤的执行路径、状态变化、失败重试都通过 LangGraph 图结构精确控制。

    场景二:代码生成与审查流水线
    实现自动化代码生成 Agent——需求分析 → 代码生成 → 静态检查 → 单测生成 → 人工审核 → 提交 PR。每个阶段作为图的一个节点,条件边决定流程走向(如检查失败则回到生成节点),整个流水线状态可持久化,断点续跑无需从头开始。

    场景三:多 Agent 研究助手
    构建多 Agent 协作的研究系统——协调者 Agent 接收问题,分发给搜索 Agent、分析 Agent、写作 Agent,各子 Agent 并行工作,最终结果由审核 Agent 汇总。LangGraph 的 Sub-graph 和状态共享机制让多 Agent 协作的代码结构清晰可维护。

    推荐理由

    LangGraph 解决了 AI Agent 开发中最痛的”黑盒执行”问题。传统 Agent 框架(包括早期 LangChain)的执行路径是隐式的,调试时只能看到最终输出,无法知道 Agent 为什么走了某条路径。

    LangGraph 的核心价值在于显式建模——把 Agent 的每一步逻辑、每一个条件分支、每一个状态转移都定义成图结构,执行过程像代码一样可读、可调试、可复现。这对生产级 Agent 系统来说是刚需。

    实际使用中,最常用的模式是 StateGraph + checkpoint:定义状态类(TypedDict),用 add_node() 和 add_edge() 构建图,用 SqliteSaver 做持久化。整个开发体验接近写普通 Python 代码,但获得的是生产级的容错和可观测能力。

    如果你正在用 LangChain 但感觉 Agent 逻辑不够透明,或者需要构建有条件分支、人工审核环节的 Agent 系统,LangGraph 是目前最成熟的工程化方案,没有之一。

    如果这篇文章对你有帮助,欢迎在 GitHub 给 LangGraph 点个 Star!

  • Google搜索彻底变天了,25年来最大一次改版

    用谷歌搜索的人最近应该都有感觉——搜出来的东西变了。不是结果排序微调那种变,而是整个交互逻辑都在重写。

    2026年5月的I/O大会上,谷歌把这件事摆到了台面上:运行了25年的”蓝链接列表”模式,正式成为历史。新版搜索的核心是一个AI驱动的交互系统,对话、智能体、动态界面全部内置在搜索里。

    数据已经说明问题

    AI概览(AI Overviews)的月活用户已经突破25亿,对话式搜索模式(AI Mode)的月活也超过了10亿。作为对比,ChatGPT在2026年初的周活是9亿。

    两家产品的用户规模其实已经在一个量级,只是谷歌的覆盖是”月活”,OpenAI的是”周活”——换句话说,很多人每周会用好几次ChatGPT,但谷歌搜索的触达面更广。

    AI概览月活25亿,AI Mode月活10亿——谷歌只用了不到两年,就把AI塞进了搜索的每一个角落。

    搜索框自己会扩展了

    新版搜索框最大的变化是——它不再只接受几个关键词。你现在可以直接打一整段话进去,搜索框会自动扩展,AI会在后台判断你到底想要什么。

    更关键的是,你不需要手动切换”AI模式”——系统会自动判断该给你链接列表,还是直接给答案。这个变化看起来小,实际上彻底改变了用了25年的搜索习惯。

    搜索里能跑智能体了

    这个是真正有意思的功能。从2026年夏天开始,用户可以在谷歌搜索里创建和自定义”信息智能体”,让它在后台持续追踪某个话题,有变化了主动推送到你面前。

    这本质上是把2003年推出的谷歌快讯(Google Alerts)整个重做了一遍——老版快讯只能告诉你”某个关键词有新页面了”,新版智能体能理解变化的内容、整合信息、甚至调用实时数据(比如股市数据)来做分析。

    比如你让智能体追踪某个行业动态,它会自己规划要监控哪些数据源、调用哪些工具,有符合条件的变化时,直接推一段整合好的摘要过来,附带来源链接供你深入查阅。

    搜索结果页开始”生成”界面

    谷歌把这个功能叫”生成式UI”——说人话就是:搜”黑洞”,结果页直接给你一个可交互的黑洞可视化模型,不是给你一堆链接让你自己去看。

    这个功能是Gemini Flash 3.5和谷歌DeepMind团队一起做的,2026年夏季起向所有用户免费开放。背后意味着一件事:搜索结果不再是”信息索引”,而是直接生成”工具”


    最争议的部分

    所有这些升级,对内容发布商来说是个坏消息。AI概览推出以来,来自谷歌的推荐流量已经在持续下滑,有几家靠广告活着的媒体已经直接关门了。

    新版搜索把链接降级为”次要内容”,发布商适应新环境的时间窗口非常有限——新版搜索框当周就上线,生成式UI和智能体功能也在夏季陆续推出。

    谷歌CEO Sundar Pichai说,公司的目标是让AI功能尽可能覆盖更多用户,包括个人AI智能体Spark未来也会免费开放。从商业逻辑上看,这一步确实必须走,只是代价要整个内容生态来承担。

  • 卡帕西去了Anthropic,AI顶尖人才争夺战彻底打响了

    5月19日晚上11点,Andrej Karpathy在X上发了一条短得不能再短的帖子:”我已加入Anthropic。”

    这条消息瞬间在AI圈炸开了锅。要知道,这可是OpenAI的联合创始人、特斯拉前AI总监、深度学习领域最具影响力的人物之一。他的每一次职业变动,都牵动着整个行业的神经。

    他到底什么来头

    1986年出生于捷克斯洛伐克的Karpathy,履历表亮得晃眼——多伦多大学双学位、不列颠哥伦比亚大学硕士、斯坦福博士(师从李飞飞),期间还和李飞飞一起创立了斯坦福第一门深度学习课程CS231n。

    博士毕业后他加入OpenAI成为创始成员,2017年被马斯克挖去特斯拉,一手搭建了FSD和Autopilot的神经网络方案,把特斯拉的自动驾驶从雷达方案硬生生推成了纯视觉路线。2022年离开特斯拉后,他短暂回归OpenAI参与改进GPT-4,2024年又出来创业做了Eureka Labs,主打AI教育。

    今年初他随口造了个词叫”vibe coding”(氛围编程),结果火遍全球,连他自己后来都改口叫”agentic engineering”了。

    “未来几年大语言模型的技术进展将会相当具有突破性。”——Andrej Karpathy

    去了Anthropic做什么

    根据Anthropic的官方说明,Karpathy加入后将进入公司最核心的预训练团队,向该团队负责人Nicholas Joseph汇报。等等,Nicholas Joseph是谁?巧了,他也是OpenAI的前核心成员。

    更有意思的是,Karpathy的具体工作是——帮助组建一支新团队,专注于用Claude本身来加速预训练研究。说白了就是”用AI来造AI”,这让他在Anthropic的工作形成了一个有趣的闭环。

    Anthropic内部已经有人在表达兴奋了——”Claude Code之父”Boris Cherny公开表示非常欢迎Karpathy的加入。

    为什么是现在

    这个时间节点颇为微妙。Anthropic正在筹备新一轮融资,估值可能冲到9000亿美元,而OpenAI那边刚摆平了马斯克的诉讼,正在为IPO铺路。

    Karpathy的加盟,被外界解读为Anthropic在人才争夺战中的一次重大胜利。有网友把这个事件比作”杜兰特加入73胜的勇士队”,还有人说这是”马拉多纳本人来了”。

    从更大的视角看,顶尖AI人才的流动方向,往往预示着接下来几年哪家公司的技术会走得更快。Karpathy选择Anthropic而不是回OpenAI,这个信号本身就很值得玩味。


    顺便说一句,Karpathy在官宣帖文中还提到,他依然对教育事业充满热情,计划在适当的时候重新投入教育相关工作。Eureka Labs会不会在将来以某种形式和Anthropic产生联动,这是一个值得持续观察的看点。

  • 我们试了谷歌的AI眼镜,已经很接近理想状态了

    在今年的谷歌I/O开发者大会上,我们有机会短暂体验了谷歌即将推出的AI眼镜——不是该公司宣布将于今年秋季发售的仅支持音频的眼镜,而是同时提供音频和视觉体验的版本。

    这些Android XR眼镜在去年的大会上首次公布,其镜片内置显示屏,可将实用信息叠加在真实世界之上,直接呈现在用户视野中。这包括可显示天气、步行导航、Uber接驾信息、实时翻译等内容的小组件,甚至是用户自己用AI设计的自定义小组件。

    谷歌Android XR AI眼镜
    谷歌Android XR AI眼镜 (来源:TechCrunch)

    prototypes已经相当成熟

    我们测试的眼镜仍然是非常早期的原型,但已经足够成熟,可以进行外部测试。演示XR眼镜的工作人员解释说,原型机让公司不必担心与不同款式、造型相关的外观设计细节,因此可以更自由地试验显示技术,以及它对电池续航的影响。

    这意味着这些样机在佩戴贴合度、造型、尺寸和设计细节方面,和任何未来发售的正式版本都会有很大不同。更像是可以在基础、舒适的镜框内对眼镜的”内部构造”进行试验。

    这款带显示屏的眼镜是今年晚些时候推出的第一代音频眼镜的下一步迭代产品。眼镜是与Warby Parker、Gentle Monster和三星合作开发的,将谷歌的技术与这些品牌的设计美学相结合。

    实际使用体验

    要激活Gemini,需要长按眼镜镜框右侧2秒,启动提示音会响起,告知用户Gemini已经开启并正在监听。在演示版本中,启动Gemini的同时也会启动摄像头,但正式发售版本将允许用户配置是否在启动Gemini时同时开启摄像头。

    在第一次测试中,我们要求Gemini播放一位我们喜爱的艺术家的音乐。由于场地太吵,无法评估音质,即使音乐开到最大音量,仍然很难清晰、有细节地听到。但从这次有限的体验来看,初步印象是这款眼镜无法替代更高质量的耳塞,但如果只是想在外面散步、徒步或在家做家务时听点音乐,它可以满足需求。

    要关闭音乐,只需轻敲镜框侧面中间的位置,就像敲击太阳穴一样。

    拍照和AI处理

    在第二次测试中,我们按下拍照按钮给一个人拍了照片。当时显示屏是关闭的,所以照片被传输到了我们的手机和手表上。(之后你可以通过长按来拍摄视频,但原型机暂不支持这个功能。如果是拍视频,你会看到视频缩略图预览,而不是照片。)

    你也可以直接让Gemini拍照,无需按拍照按钮,还可以对拍摄结果进行一些AI处理。比如你可以说”拍张照片,把这个人物变成动漫角色”。照片会先发送到手机,再发送到Gemini和Nano Banana服务器,之后返回编辑后的版本。

    在谷歌I/O的场地里,Wi-Fi负载很高,整个往返过程大约需要45秒。

    显示屏体验

    开启显示屏后,你会在视野中看到一个简单的主屏幕。演示版本预装了一些小组件,显示天气和谷歌I/O活动的倒计时。如果你是眼镜的主要使用者,也可以把谷歌地图、翻译等特定应用的快速启动器设置好。

    原型机只有右眼上方的单显示屏,但该平台同时支持单显示、双显示以及仅音频的眼镜模式。显示屏的图像有点模糊,我们认为这和我们佩戴的处方隐形眼镜有关——我们一只眼睛的镜片是优化远距离视物的,另一只优化近距离视物。当我们闭上一只眼睛时,图像会更清晰,但这种体验几乎立刻就让我们右眼上方产生了视疲劳。


    翻译功能表现突出

    最出色的演示之一是眼镜的语言翻译功能,它依托手机上的谷歌翻译应用。一位演示人员语速很快地说西班牙语,眼镜自动检测到了语言,并在显示屏上显示英语翻译文本,同时Gemini会在我们耳边用英语说出来。

    我们认为很多出境旅行者会为了这个功能购买这款眼镜。需要指出的是,仅音频的眼镜也支持翻译功能,只是不会在眼镜上显示文本,如果需要的话,你可以在手机上看到转录文本,同时还有实时音频反馈。

    导航体验不挡视线

    另一个演示是使用眼镜导航。你可以通过要求Gemini导航到某个目的地来启动谷歌地图体验——甚至可以模糊到比如”最近的咖啡店”这样的指令。

    Gemini会激活手机上的谷歌地图,在体验加载的短暂延迟后,眼镜会显示转向导航信息。当你向前看时,会显示下一个转向的信息。但如果你需要在空间中定位,低头看地面就能看到地图上的蓝色圆点。你也可以左右转动身体来在空间中旋转,就像你在手机上调整蓝色圆点的方向一样。

    然后当你再抬头时,可以继续行走,地图不会挡住你的视线。因为这个体验是和手机上的谷歌地图绑定的,所以”家””公司”等已保存的目的地已经可以直接使用。

    物体识别还需优化

    我们还短暂地用眼镜识别视野中的各种物体,并向它提问。眼镜最初很难识别我们面前架子上的莫奈画作复制品,这是因为原型机没有自动开启摄像头——必须从应用中手动开启。

    不过即使我们凑近去聚焦画布左下方的莫奈签名,Gemini还是问了几个问题之后才说它看起来像莫奈的作品。其他测试更顺畅,眼镜立刻识别了架子上的植物,还回答了关于书上不同食谱的问题。


    后续规划和市场背景

    谷歌表示,今年晚些时候它会分享更多关于Android XR显示眼镜的信息,届时它会扩大其可信测试者计划。

    与此同时,该公司认为音频功能已经可以满足部分用户的需求,这可能是面对Meta和Snap在该领域的竞争,它还没有准备好显示眼镜的巧妙说法。

    和显示版本一样,仅音频眼镜也可以访问谷歌的Gemini AI,你可以通过眼镜的镜框扬声器私密收听。你可以通过眼镜听音乐、按按钮拍照、打电话,或者访问手机应用,这些功能和未来的显示版本一样。

  • 我试了亚马逊的Bee可穿戴设备,感兴趣但有点发毛

    最近我上手试了下Bee,这是亚马逊去年收购的那款AI腕带设备,今年又推了好几轮功能更新。和它宣传的一样,这东西定位就是个”全天候个人助理”:录你一整天的对话、自动转录、生成总结,还能和日历同步之后给你发提醒。

    用法倒不复杂——开机、戴上、和手机App配对、填点基本信息就能跑起来。Bee自带录音按键,绿灯闪就是在录,再按一下就停,录完之后App会自动生成一段易读的总结,完整的转录文本也在里面。

    亚马逊Bee可穿戴设备
    Bee AI可穿戴设备实拍图 (来源:TechCrunch)

    职场场景确实好用

    我专门拿它测了一次商务通话(当然事先征得了对方同意),录完之后App给出的总结相当到位,把对话拆成了几个板块,之后不用重听整段录音就能回顾内容。

    这个功能本身没什么稀奇,Otter、Granola这些工具也能做转录和自动总结,体验上差别不大。但你可以想象,一个整天在不同会议之间辗转的职场人,确实会很需要这种设备——Bee可以一整天都开着,之后随时回顾总结,确认自己没漏掉任何关键内容。

    Bee在工作场景下的表现相当扎实,如果你的一天被各种会议填满,又很难捋清所有内容,它会是个还算称职的助理。

    转录准确度还有提升空间

    Bee生成的对话总结做得不错,但原始转录文本偶尔会有点乱。之前的评测也提到,你通常需要手动输入其他说话人的名字,因为Bee不一定能识别谁在说话。我这次测试中也发现它遗漏了部分聊天内容——倒不是什么重要信息,但确实不是百分之百完整的记录。

    我还带着Bee去参加了每周两次的朋友电影之夜,让它整晚都保持运行。我们当时在看《落水狗》,我还有点担心设备会把所有粗俗的暴力场面当成真实的流血事件、触发什么内部警报。不过Bee基本清楚发生了什么:它识别出我们在看电影,在之后的事件总结里,把这段对话标注为”塔伦蒂诺电影场景分析”。

    隐私问题没法绕开

    对我来说,问题核心在于:我算是个隐私爱好者。在普通人已经被无处不在的数字监控包围的当下,我很珍惜任何不被录制的机会,所以想到要24小时把个会偷听的gadget戴在手腕上,我本来是不太感兴趣的。

    但有点奇怪的是,Bee目前的营销定位很大程度上是面向个人使用的。要接受这点,你得愿意让Bee接触到你线下和数字生活的大部分内容。

    确实,要想好用,Bee需要获取广泛的手机权限,包括位置、照片、手机通讯录、日历和手机通知权限。你还可以和它共享健康数据——如果你出于某种原因想让它知道你的睡眠模式或者静息心率的话。

    Bee收集的大量数据都存在云端,这对数字隐私爱好者来说又带来了新的担忧。科技YouTuber Becca Farsace曾收到消息,Bee展示过完全本地运行的设备demo。如果这家公司真的能做出这样的设备,我会非常感兴趣,甚至会考虑买一台。不过到目前为止,亚马逊还没有公布这方面的进展。


    安全承诺和现实之间的落差

    至于Bee的数字隐私保护,公司表示会对用户数据进行加密,无论是静态存储还是传输过程中都受保护。在隐私政策中,公司表示已经”实施了技术和组织安全措施,旨在保护公司处理的所有个人信息的安保”。Bee还声称会接受”严格的第三方安全审计”,并采用持续的安全监控。

    这些听起来都很不错,不过值得注意的是,亚马逊和很多大型科技公司一样,偶尔也会出现一两个数据安全问题(对于一家管理着全球大量云环境的公司来说,这倒也不算意外,但依然值得关注)。

    简单来说,Bee是一款很有意思的硬件,如果经过一段时间的调整和优化,未来很可能在职场场景有很好的应用前景。但作为个人生活的数字助理,对部分用户来说,它可能还是有点太有侵入性了。

  • Aider:45.3k Stars!终端AI结对编程工具,让Git与AI完美融合

    Aider:45.3k Stars!终端AI结对编程工具,让Git与AI完美融合

    📌 项目简介

    Aider

    Aider 是一款在终端中运行的AI结对编程工具,支持从零启动新项目或基于现有代码库进行开发。它不仅能理解整个代码库的结构,还能自动执行lint和测试,是开发者的AI编程利器!

    ⚙️ 安装要求和过程

    环境要求

    • Python 3.8+
    • Git(Aider原生集成Git)
    • API密钥(Anthropic/OpenAI/DeepSeek等)

    快速安装步骤

    1. 安装Aider
      python -m pip install aider-chat
      aider
    2. 配置API密钥
      # 使用Claude 3.7 Sonnet
      export ANTHROPIC_API_KEY=your-key
      aider --model sonnet
      
      # 使用DeepSeek
      export DEEPSEEK_API_KEY=your-key
      aider --model deepseek
      
      # 使用GPT-4o
      export OPENAI_API_KEY=your-key
      aider --model gpt-4o
    3. 进入项目目录
      cd /path/to/your/project
      aider

    💡 核心功能

    1. 全代码库理解

    Aider能自动生成整个代码库的”地图”,理解项目结构,无论项目多大都能精准定位需要修改的文件。

    2. Git原生集成

    每次AI修改后,Aider都会自动生成合理的commit信息,你可以通过Git轻松diff、管理和回滚AI的修改。

    3. 多模态输入支持

    支持添加图片、网页到对话,提供视觉上下文、截图、参考文档等,让AI更准确理解你的需求。

    4. 自动校验与修复

    每次修改后自动执行代码lint和测试,如果检测到lint错误或测试失败,Aider会自动修复!

    5. 语音转代码

    支持语音输入需求,自动实现新功能、测试用例或Bug修复,编程效率翻倍!

    🚀 典型使用场景

    场景1:新项目从零启动

    想快速搭建一个新项目?只需在终端输入:

    $ aider
    Aider> 帮我创建一个Flask REST API,包含用户认证和JWT令牌

    Aider会自动生成项目结构、配置文件、路由和测试用例,并自动提交第一个commit!

    场景2:现有代码库的功能迭代

    在已有项目中添加新功能?Aider理解整个代码库:

    $ aider
    Aider> 在用户模型中添加一个"最后登录时间"字段,并更新相关API

    Aider会自动找到需要修改的文件,添加字段,更新迁移脚本,修改API响应,并运行测试确保一切正常!

    场景3:Bug修复与测试

    遇到Bug?让Aider帮你定位和修复:

    $ aider
    Aider> 修复用户登录时的502错误,并添加测试用例

    Aider会分析日志、定位问题、修复代码、添加测试,确保问题不再复现!

    🎯 推荐理由

    作为一名开发者,我一直在寻找能让AI真正融入编程工作流的工具。Aider是我用过的最实用的AI编程助手,原因如下:

    ✅ Git原生集成:不像其他工具那样”黑盒”修改,Aider的每次修改都有清晰的commit,你可以随时diff或回滚。

    ✅ 理解大型代码库:Aider会生成整个代码库的地图,即使是很复杂的项目,它也能精准定位需要修改的地方。

    ✅ 自动修复lint/测试错误:这是我最喜欢的功能!Aider修改代码后会自动运行lint和测试,如果有错误会自动修复,真正实现了”自动化编程”。

    ✅ 支持100+编程语言:无论你用Python、JavaScript、Rust、Go还是C++,Aider都能胜任。

    ✅ 多模态输入:可以添加图片、网页到对话,让AI更准确理解你的需求,这对前端开发特别有用!

    如果你想要一个真正能理解你的代码库、并与Git无缝集成的AI编程助手,Aider绝对值得一试!

    📥 下载地址

    官方资源

    快速安装

    # 安装Aider
    python -m pip install aider-chat
    
    # 使用Claude 3.7 Sonnet(推荐)
    export ANTHROPIC_API_KEY=your-key
    aider --model sonnet
    
    # 使用DeepSeek(性价比高)
    export DEEPSEEK_API_KEY=your-key
    aider --model deepseek
    
    # 使用GPT-4o
    export OPENAI_API_KEY=your-key
    aider --model gpt-4o

    #开源项目 #AI编程 #终端AI #Aider #GitHub热门 #AI Agent

  • 谷歌I/O 2026:传统搜索时代宣告结束,AI代理全面接管信息采集

    在本周举行的谷歌I/O开发者大会上,谷歌搜索负责人Liz Reid说了一句话,值得所有靠搜索引擎拿流量的网站主认真听一听:”你熟悉的传统’十条蓝色链接’搜索时代,正式宣告结束。”

    这不是夸张的营销话术。谷歌在I/O上发布的搜索功能AI驱动全面改版,是搜索框诞生25年来这个网络入口最大的一次变革。

    新搜索到底长什么样

    新的搜索框会直接扩展,容纳更长、更具对话性的查询——你不用在查询开始时特意选择什么”AI模式”,它默认就能理解更复杂的提问。

    搜索结果页面也在变。谷歌会把用户导向AI驱动的交互式体验,而不是一堆链接列表。链接并没有完全消失,但在很多类型的搜索里,它们不再是优先展示的内容。

    搜索结果里蓝色链接的存在感会越来越低。用户花在手动点击链接上的时间会变少,越来越多”搜索网络”的工作,将由AI代理来完成。

    三个值得关注的新功能

    第一,信息代理。今年夏天开始,用户可以在谷歌搜索中创建、定制和管理多个”信息代理”,它们7×24小时在后台工作,跟踪网络上的变化,并在有新信息时提醒你。这本质上是谷歌提醒(Google Alerts)的进化版——代理不仅能发现变化,还能理解这些变化的意义。

    第二,生成式UI。由DeepMind团队基于Gemini Flash 3.5开发,能根据用户的搜索问题动态构建自定义小部件和可视化内容。比如你问关于太空黑洞的问题,搜索结果里会直接出现一个让这个概念生动起来的交互式视觉效果,而且你可以继续追问,看到谷歌实时生成的全新可视化内容。

    第三,搜索内小应用构建。用户可以借助Antigravity平台,通过自然语言命令直接在搜索中构建自己的可定制、有状态体验——也就是”小应用程序”。比如构建一个膳食计划应用,利用你日历里的信息来帮你决定准备什么以及什么时候吃。

    谷歌新版AI搜索界面
    谷歌新版AI搜索界面示意图(图片来源:TechCrunch)

    数字背后的信号

    谷歌公布的数据很能说明问题:AI概览(AI Overviews)的月活用户已经超过25亿;去年推出的对话式搜索AI模式,月活也突破了10亿。作为对比,ChatGPT今年早些时候的周活用户是9亿。

    这两个数字的差别值得玩味:ChatGPT的用户粘性更高(用户一周内反复回来使用),而谷歌在AI功能的月度独立用户覆盖规模上更大。


    网站主该怎么办

    对于依赖搜索流量的内容创作者和媒体机构来说,这波变化不是好消息。AI概览推出以来,很多网站的推荐流量已经在下滑,部分依赖广告的媒体机构已经因此倒闭。这次改版会让情况进一步加剧。

    谷歌的长期计划是把这些AI功能——包括个人AI代理Spark——最终免费开放给所有人。CEO Sundar Pichai在I/O前的新闻发布会上说得很清楚:把前沿模型做得高效、快速、成本低,是为了把它带给尽可能多的人。

    新搜索框本周就会推出,生成式UI今年夏天上线。留给网站主适应调整的时间,真的不多了。

  • OpenAI推理模型推翻80年数学猜想,AI首次自主解决核心数学难题

    本周四,OpenAI官方宣布一条让人瞠目结舌的消息:他们的一个通用推理模型,自主推翻了数学家保罗·埃尔德什(Paul Erdős)1946年提出的”单位距离猜想”。这道题困扰了数学界整整80年,现在被AI给破了。

    一个折腾了数学家80年的问题

    这道题的表述简单到让人怀疑是不是看错了:在平面上放n个点,最多有多少对点之间的距离恰好等于1?数学家把这个数记为u(n)。

    直觉告诉我们,把点排成正方形网格大概是最优解。事实上,此前人类找到的最好构造——缩放后的正方形网格——能得到大约C·n·log n个单位距离对(C是常数)。埃尔德什本人也倾向于认为正方形网格就是最优解,还为此设立了现金奖励。

    但OpenAI的模型用一记响亮的耳光证明:人类和埃尔德什,似乎都想错了。

    AI是怎么做到的

    传统思路是用”高斯整数”(形如a+bi的数,a、b为整数)在平面上构筑网格,利用它的代数对称性来构造单位距离。但AI敏锐地察觉到,高斯整数提供的对称性还不够”压榨”出更多的单位距离对。

    它的核心原创想法是:放弃高斯整数,改用代数数论中更庞大、更复杂的”代数数域扩张”来构造——这玩意儿能搭出对称性更高级、更丰富的数域结构,从而在几何空间里创造出远超以往的单位长度差。

    为了证明这种理想中的复杂数域不仅存在、而且坍缩出来的点集确实满足条件,AI甚至直接搬出了代数数论的底层重武器:无限类域塔(infinite class field towers)和Golod-Shafarevich理论。

    AI数学证明示意图
    OpenAI推理模型证明过程示意图(图片来源:36氪)

    数学家们的反应

    菲尔兹奖得主蒂莫西·高尔斯(Tim Gowers)的评价很直接:这是”AI数学的一个里程碑”,如果这是人写的论文,他会毫不犹豫建议顶刊接收。

    著名数论学家Arul Shankar也说,现在的AI模型已经不只是人类数学家的助手了——它们能够提出原创而巧妙的想法,并把想法完整推进到最终成果。

    OpenAI科学家、AI德扑提出者Noam Brown补充了一个关键信息:实现这一突破的是一个通用大语言模型,它不是专门针对这个问题、甚至不是专门针对数学问题设计的,也不是一个协助工具。


    经外部数学家改进后,AI构造的指数c可以达到0.014。这意味着对于无穷多个n值,我们可以构造出至少n·log^0.014(n)个单位距离对的n点配置——比人类此前的最优解更强。

    这次突破的意义远不止解决一个具体的数学猜想。它表明通用大模型已经具备了跨领域融合知识、维持复杂逻辑链条、产出经得起专家严格审视的成果的能力。这些能力在生物学、物理学、材料科学、工程学和医学等领域同样具有实用价值。

  • Anthropic即将迎来首个盈利季度,营收翻倍至109亿美元

    《华尔街日报》放出一条消息:Anthropic告诉投资人,今年第二季度营收会比第一季度翻倍以上,冲到约109亿美元,而且——这是头一回——要实现运营盈利了。

    这个数字如果兑现,Anthropic相对于头号对手OpenAI的处境会好不少。不过《华尔街日报》也补了一刀:因为接下来有一大笔算力开支要付,Anthropic今年未必能全程保持盈利。

    Anthropic Claude AI
    Anthropic的Claude聊天机器人(图源:Ludovic MARIN / AFP / Getty Images)

    这数据是哪来的

    这些财务数据是Anthropic在一轮融资过程中透露给投资人的。融资嘛,总得拿点漂亮数字出来让人看——营收翻倍、首次盈利,这俩放一块确实够有说服力的。

    过去这一年,Anthropic涨势挺猛。越来越多的专业人士表示更偏好用Claude,而不是其他家的聊天机器人。公司也在努力拓宽客户群,比如给小企业主推新服务,给律师事务所搞新工具。

    有趣的是,Anthropic盈利的消息传出来的同一天,正好也爆出了OpenAI可能很快就要交IPO申请的新闻。

    算力账单是座大山

    营收翻倍听起来很爽,但Anthropic的算力成本也是真烧钱。训练大模型、跑推理、维护服务,每一笔都是天文数字。这就是为什么《华尔街日报》说它”可能没法全年保持盈利”——钱赚到了,但花得也狠。

    这其实是整个AI行业的共同难题。模型越训越大,用户越来越多,算力需求就跟着滚雪球。Anthropic这次能实现单季度盈利,已经是个不小的事情,至于能不能稳住,得看接下来的成本控制做得怎么样。


    跟OpenAI的对比

    Anthropic盈利的消息,跟OpenAI的IPO传闻同一天出来,这时间点卡得够巧的。两家公司一直在明争暗斗:Anthropic主打”更安全、更靠谱”,OpenAI主打”更强大、更通用”。

    如果Anthropic真的在二季度实现盈利,这在AI独角兽里算是相当靠前的。毕竟大多数AI公司现在还在疯烧钱的阶段,能赚到钱的没几家。这也会给即将IPO的OpenAI一点压力——投资人肯定会拿俩家的财务数据来回比。

    Anthropic拒绝对此事发表进一步评论。也正常,融资还没关,话说多了容易出岔子。

  • Spotify联手环球音乐,AI翻唱正式合法化

    Spotify最近干了一件挺有意思的事——跟环球音乐集团(UMG)签了协议,要让用户用AI翻唱和混音自己喜欢的歌。这不是那种游走在法律灰色地带的玩法,而是正儿八经拿到了版权方授权的。

    这个功能会以付费插件的形式上线,只有Spotify Premium订阅用户才能用。参与的艺人还能从AI生成音乐的收入里分一杯羹——这算是给音乐人们吃了颗定心丸。

    Spotify app on phone screen
    手机屏幕上显示的Spotify图标(图源:Jakub Porzycki/NurPhoto / Getty Images)

    明摆着在怼谁

    Spotify去年就透露过这个计划,当时特意强调了一句话:”通过事先协议来实现,而不是先做了再求原谅。”这话说的,明眼人都能看出来是在怼谁——就是Suno和Udio那帮人。

    Suno和Udio确实是AI音乐生成领域的先行者,但他们起步的时候根本没搞定版权问题。结果可想而知,三大唱片公司直接把状子甩了过去。去年11月,Suno跟华纳音乐集团达成了5亿美元的和解——这钱够多的。

    环球音乐和索尼音乐还在告Suno,Udio虽然已经跟华纳和环球和解了,但跟索尼的官司还没打完。

    Spotify的玩法不一样

    消费者显然想要这种功能,Spotify干脆直接去找版权方谈。规则很明确:艺人和版权方自己决定参不参与,参与的话怎么分钱,都由他们说了算。

    Spotify联合CEO亚历克斯·诺斯特伦说:”解决音乐领域的难题是Spotify的拿手好戏,AI翻唱和混音是下一个目标。我们正在打造的东西,根基是征得同意、署名权和补偿机制,参与的艺人和词曲作者都能获益。”

    环球音乐集团董事长兼CEO卢西恩·格兰奇也挺买账,说这能让艺人和粉丝的关系更深,还能多赚一份钱。目前还不知道有哪些环球旗下的艺人愿意参与,估计得等功能正式上线才能见分晓。


    不只是AI翻唱

    这笔交易是Spotify投资者日当天公布的一揽子消息之一。同一天还发布了好几个AI相关的新功能:

    • 基于ElevenLabs的AI有声书创作工具
    • 播客的AI问答和摘要生成功能
    • 用AI生成个人播客的桌面端应用
    • 为头部粉丝保留演唱会门票

    环球音乐只是第一个,Spotify大概率还会跟更多唱片公司签类似的协议。毕竟索尼和华纳那边也有不少艺人,粉丝的AI翻唱需求同样旺盛。

    这件事最大的意义在于:AI生成音乐终于有了一条合法、合规、各方都能分到钱的路径。之前Suno和Udio搞得沸沸扬扬,归根结底就是没解决版权问题。Spotify这次把规则定好了,后续其他平台估计也会跟着学。