标签: AI

  • 谷歌这次把AI科学家搞出来了,7个智能体自己跑实验,还登了Nature

    谷歌DeepMind最近搞了个大动作,直接把AI科研助手的水平拉到了《Nature》正刊的级别——他们推出的Co-Scientist系统,现在已经能自主完成从提假设到验证的全科研流程,而且在肝纤维化、衰老这些之前啃不动的生命科学领域,已经拿出了实打实的成果。

    谷歌Co-Scientist系统登顶Nature
    谷歌DeepMind Co-Scientist系统架构图(来源:新浪财经)

    Co-Scientist的核心是基于Gemini大模型的7大智能体体系,模拟完整科学研究循环(提出假设→质疑修正→迭代完善)。

    7大智能体怎么分工?

    这7个智能体各有分工,合起来就是一个不用休息的科研团队:生成代理负责基于已有文献提初步假说;邻近性代理给这些假说分类,避免漏了潜在的研究路径;反思代理相当于虚拟同行评审,专门挑假设的错误;排名代理让假说两两比拼,筛选出最有前景的方向;进化代理对排名靠前的假说迭代优化;元评审代理汇总结果,生成完整研究方案给人类科学家审阅;监督代理是总指挥,拆解大目标为具体任务,协调所有智能体并行工作。

    为了保证质量,系统还借鉴了AlphaGo的博弈逻辑,让假说之间“打擂台”,把大部分算力投入假设验证环节——反复核对假设和现有文献、数据的一致性,确保假设有依据、逻辑通顺、能实验验证。另外还能调用ChEMBL、UniProt这些专业数据库,以及AlphaFold等第三方AI工具,吸收多维度的知识。

    已经在哪些领域出了成果?

    目前这个系统优先在生命科学领域落地,已经搞出了不少突破:肝纤维化治疗方向,筛选出的老药新用候选药物,在实验室里能抑制91%的纤维化相关反应,效果比传统方案好得多;渐冻症(ALS)研究,整合了几十年的领域文献,提出了全新的RNA疗法思路,现在已经在推动跨实验室联合攻关;细胞衰老逆转研究,精准锁定了关键基因靶点,把原本需要数月的数据处理工作压缩到了数天完成。

    其他方向也有进展:肝病机制研究,解析出了不同药物疗效差异的核心原因,结论经实验100%验证;新发传染病研究,能快速锁定致病关键氨基酸,把原本需要数年的实验周期缩短到数周;衰老生物学研究,提出了应激反应的全新假设,已经经过多家实验室独立验证。

    AI for Science成巨头新战场

    谷歌这次突破之后,AI for Science赛道已经成了科技巨头和初创公司都在抢的香饽饽:2025年12月FutureHouse推出AI科学家Robin,首轮融资就拿了7000万美元;英伟达和礼来宣布未来5年共同投资10亿美元,共建全球首个AI药物共创实验室;科学智能公司Lila Sciences刚完成3.5亿美元A轮融资,估值就超过了13亿美元。

    以前搞科研靠天才的灵感和运气,现在有了这套系统,相当于给每个科学家配了一个24小时不睡觉、能读完所有文献、还能自己设计实验的助手——科研效率的革命,真的要来了。


  • 英伟达又破纪录了,但真正吓人的是那430亿美元的隐形投资组合

    英伟达又破纪录了,但真正吓人的是那430亿美元的”隐形投资组合”

    英伟达周三盘后公布了截至2026年4月26日的季度财报,数字一如既往地好看:总营收816亿美元,较上一季度增长20%;数据中心营收752亿美元,又创了新高。

    黄仁勋在电话会议上那股子得意劲儿不难想象。据财报披露,英伟达所有主要客户——所有超大规模云厂商、所有云服务提供商、所有主要大模型开发商——都已经采用并部署了Blackwell架构。这句话的潜台词是:眼下这场AI军备竞赛,英伟达是唯一的军火商。

    本季度营收816亿美元(环比+20%),数据中心营收752亿美元创历史新高。英伟达授权800亿美元股票回购计划,预计下季度营收910亿美元。

    受此业绩提振,英伟达授权了800亿美元的股票回购计划。有钱就是任性。

    430亿美元是怎么花出去的?

    但如果你仔细翻这份财报,有一个数字比营收纪录更值得玩味:英伟达持有私营企业的股权规模,在这三个月里几乎翻了一番。

    季度初,这个数字还是220亿美元。季度末,变成了430亿美元。

    430亿美元是什么概念?大约相当于两个英特尔的市值(截至发稿时英特尔市值约210亿美元)。而这些还只是英伟达持有的非上市企业股权,不包括它对康宁(Corning)、IREN等上市公司的投资,也不包括今年2月承诺向OpenAI投资的300亿美元(这笔交易的结构尚未披露)。

    英伟达CEO黄仁勋在GTC大会
    英伟达CEO黄仁勋在GTC大会 | 图源:TechCrunch / Getty Images

    推动这笔430亿美元的主要因素是本季度内累计185亿美元的收购支出。作为对比,上一季度英伟达在收购私营企业股权上的支出仅为6.49亿美元。从6.49亿到185亿,这个增幅大概是28倍。

    黄仁勋的”产能阳谋”

    黄仁勋在电话会议上特别提到了与Anthropic的产能建设计划。他说:”我们今年和明年为Anthropic上线的产能规模将非常可观,此前我们对Anthropic的覆盖基本为零。”

    这句话其实透露了两个信息:第一,Anthropic正在大规模扩张算力基础设施;第二,英伟达是这次扩张的核心受益者。考虑到Anthropic每月需向xAI支付12.5亿美元算力的消息刚过去没几天,AI公司对算力的渴求已经到了不惜代价的地步。

    当然,财报也不是全是好消息。英伟达预测下一季度营收为910亿美元,环比增长12%。这个数字虽然仍然亮眼,但增速较本季度的20%已经明显放缓。

    中国市场:名义上能卖,实际上卖不了

    中国市场的故事则基本处于停滞状态。CFO Colette Kress表示,虽然H200芯片已获得美国出口许可,但”我们尚未产生任何相关收入,也不确定是否会被允许出口到中国”。

    换句话说,名义上可以卖,实际上卖不了。这块市场基本上已经算是丢了。

    回过头看那430亿美元的持股组合,英伟达正在做的事情其实很聪明:它不只是卖铲子的,它还在用赚来的钱买下那些挖金矿的公司的股份。AI产业链的每一个环节,从芯片到模型到应用,英伟达都在用投资的方式深度绑定。

    这种模式一旦跑通,英伟达就不再是单纯的硬件供应商,而是整个AI生态系统的股东。到那时候,即便有竞争对手的芯片赶上来,英伟达手里握着的那些股权也足够让它继续坐在牌桌的主位上。


  • OpenAI说这次真的解决了80年数学难题,上次的尴尬还记得吗?

    OpenAI说这次真的解决了80年数学难题,上次的尴尬还记得吗?

    如果你最近刷到OpenAI又双叒叕宣布”解决数学难题”的消息,第一反应可能是:又来?

    确实,这话听着耳熟。7个月前,OpenAI时任副总裁Kevin Weil在X上发帖,信誓旦旦地说GPT-5找到了10个此前未解的埃尔德什问题解决方案,另外11个也取得了进展。结果呢?被打脸了。那些”新解决方案”早就存在于现有文献中,压根不是什么新发现。

    那次翻车之后,Yann LeCun、谷歌DeepMind CEO Demis Hassabis等竞争对手轮番嘲讽,Weil也只能默默删帖。可以说OpenAI在数学证明这件事上,信用已经透支得差不多了。

    这次被解决的是保罗·埃尔德什(Paul Erdős)1946年首次提出的几何猜想。近80年来,数学家们普遍认为这个问题的最优解大致类似正方形网格。OpenAI的新推理模型把这种想法推翻了,发现了一种全新的构造族,性能更优。

    但这次,OpenAI好像真的没吹牛。

    这次OpenAI在X上发帖宣布消息时,还附上了数学家Noga Alon、Melanie Wood和Thomas Bloom的支持性评论。Bloom是Erdos Problems网站的维护者,就在7个月前,他还在社交媒体上称Weil的那条官宣是”戏剧性的不实描述”。这次他站出来背书,分量不轻。

    不是专门训练出来的”数学天才”

    OpenAI的说法是:这是”AI首次自主解决数学领域核心的著名开放问题”。而且特别强调,这个证明是由新的通用推理模型产出的,不是专门为了解这个数学题、甚至不是专门针对这个问题设计的系统。

    换句话说,这是个意外之喜,不是定向训练的结果。这意味着模型的推理能力已经强到可以在没有专门训练的情况下,自主产出原创的数学证明。

    这件事为什么重要?OpenAI的解释是:这意味着AI系统现在更有能力处理长难推理链,并且能以研究人员此前未探索过的方式跨领域连接想法。这对生物学、物理学、工程和医学都有重要意义。

    Erdős数学问题示意图
    埃尔德什问题相关数学示意图 | 图源:TechCrunch

    数学界会买账吗?

    Thomas Bloom的声明说得很漂亮:”AI正在帮助我们更全面地探索几个世纪以来我们搭建的数学殿堂。还有哪些未被发现的美妙事物正等待被发掘?”

    话是这么说,但数学界向来对计算机辅助证明持保留态度。1998年四色定理的证明用到了计算机穷举,至今仍有数学家觉得不够”优雅”。这次OpenAI给出的证明,能不能被数学界真正接受,恐怕还得看同行评审的结果。

    不过有一点倒是挺有意思的:上次的尴尬过去才7个月,OpenAI就端出了一个有数学家背书的成果。是模型能力真的跃升了,还是这次学乖了、先找好背书再开发布会?

    答案可能要等一等才能知道。但至少这次,OpenAI没有让自己再次成为笑话。


  • Supabase:103k Stars!开源Firebase替代品,AI应用的数据底座首选

    Supabase:103k Stars!开源Firebase替代品,AI应用的数据底座首选

    Supabase - The Open Source Firebase Alternative

    Supabase – 开源 Firebase 替代品

    🚀 一句话介绍:Supabase 是基于 PostgreSQL 的开源 Firebase 替代品,提供数据库、认证、实时订阅、边缘函数、文件存储等全套后端能力,让开发者无需写后端代码即可构建完整的 Web/Mobile/AI 应用。


    ⚙️
    安装要求与过程

    环境要求

    • Docker Desktop(本地开发必备)
    • Node.js 18+(前端集成)
    • Git(获取源码)
    • 支持 macOS / Windows(WSL2) / Linux

    🚀 快速安装(3种方式)

    # 方式一:使用官方 CLI(推荐)
    npm install -g supabase
    supabase init
    supabase start
    
    # 方式二:Docker 直接运行
    docker run -p 8000:8000 supabase/supabase
    
    # 方式三:直接使用云端(零安装)
    注册即用的托管平台 → https://supabase.com/dashboard

    ✅ 本地启动后访问 http://localhost:54323 即可打开控制台



    核心功能

    🗄️

    托管 PostgreSQL 数据库

    完整 PostgreSQL 实例,支持扩展、备份、SSL 加密,直接提供生产级数据库服务。

    🔐

    身份认证与授权

    基于 JWT 的完整认证体系,支持邮箱/密码、魔法链接、OAuth(GitHub/Google/Apple 等)。

    自动生成 API

    零配置自动生成 REST API(PostgREST)和 GraphQL API,实时订阅数据库变更(Realtime)。

    🤖

    AI 向量存储

    内置 pgvector 扩展,支持向量嵌入存储与语义搜索,是构建 RAG 应用和 AI 知识库的理想数据底座。

    边缘函数

    基于 Deno 的全球边缘函数,支持 TypeScript,超低延迟执行后端逻辑,就近部署。


    💡
    典型使用场景

    场景一:AI 应用的数据底座

    利用 Supabase 内置的 pgvector 扩展存储向量嵌入,配合 Supabase 客户端库实现语义搜索。适合构建 RAG 应用、AI 聊天机器人的知识库、文档问答系统等。与 OpenAI / Anthropic API 无缝集成,是 AI 全栈开发的首选后端。

    场景二:SaaS 应用快速启动

    一个命令 supabase init 即可获得全套后端:数据库 + 认证 + API + 文件存储 + 实时订阅。不需要雇用后端团队,不需要配置服务器,专注于前端业务逻辑即可。大量 indie hackers 和创业团队用它在一周内完成 MVP 上线。

    场景三:实时协作应用

    Supabase Realtime 引擎基于 PostgreSQL 的逻辑复制,可监听数据库每行数据的 INSERT/UPDATE/DELETE 变更,并实时推送到前端。适合构建多人协作工具(如 Notion 类应用)、实时聊天、在线白板等场景。


    ❤️
    推荐理由

    作为一名 AI 开发者,我选择 Supabase 最核心的原因是:它把 PostgreSQL 的强大数据能力与 AI 应用的需求完美结合了。内置的 pgvector 扩展让我不需要额外维护一套向量数据库,所有用户数据、向量嵌入、文件存储都在一个平台搞定。

    对比使用传统的”PostgreSQL + 独立向量数据库 + 独立 Auth 服务”的组合,Supabase 帮我省掉了大量运维成本。开源 + 自托管的特性也意味着数据完全掌握在自己手里,对于有数据安全要求的企业场景尤为重要。

    目前 Supabase 在 GitHub 上已经突破 10 万 Stars,社区活跃度极高,几乎每周都有新功能和改进上线。如果你正在做 AI 应用、SaaS 产品或者任何需要后端的项目,强烈建议试试!


    🔗
    下载地址

    💡 小贴士

    Supabase 提供 免费套餐(500MB 数据库、1GB 文件存储、50K 月活用户),个人项目完全够用!付费方案从 $25/月 起。

  • 2026年5月AI圈的三件大事:新模型扎堆发布,Agent终于落地,然后电力不够用了

    2026 年的 5 月,AI 圈的热闹程度一点不比 4 月差。模型发布、Agent 落地、电力危机——这三件事同时发生在同一个月份里,凑在一起看,你会发现这个行业的节奏已经完全不是「按年迭代」了,而是按月、甚至按周在翻篇。

    模型发布潮,这次不一样

    OpenAI 的 GPT-5.5 系列还在持续推出变体,方向很明确:不再追求一个万能模型打天下,而是按场景拆分成不同专业版本。GPT-5.5-Cyber 专门盯网络安全场景,能做漏洞挖掘和攻防推理——这种垂直专业化的做法,说明厂商已经意识到通用模型在企业场景里的性价比瓶颈。

    Claude Mythos 更神秘一些,目前只有约 50 家合作伙伴能拿到受限预览资格。传闻在推理、编码、Agent 执行和漏洞发现这几个能力上都有重大突破。稀缺性反而让它热度更高——但说实话,这种「限量内测」的打法,到底是为了控制风险还是营销手法,外人很难判断。

    DeepSeek V4 的出现,让「低成本逼近前沿性能」这件事从例外变成了趋势。开源权重模型的竞争力,已经到了闭源厂商不能忽视的程度。

    DeepSeek V4 预览版已经上线,正式版预计近期发布。它的核心卖点是以极低的推理成本提供接近前沿水平的性能。对于高用量场景来说,这个性价比优势是真实的,不是噱头。Meta 的 Avocado 则推迟到了 5-6 月发布,说明即使头部厂商也会在研发落地的时间表上翻车——厂商给的路线图,看看就好,别当真。


    Agent 落地,这次是真的

    Gartner 有个预测:到 2026 年底,40% 的企业应用会嵌入 AI Agent。2025 年这个比例还不到 5%。这个跨度不是渐进式的,是跳跃式的。Deloitte 直接把 2026 年定义为「Agentic AI 的转折点」,IBM 等厂商也在推「超级智能体」和「多智能体编排」的概念。

    开发者社区的话题也变了。半年前大家还在争论「Agent 到底有没有用」,现在已经在讨论用 CrewAI 还是 LangGraph,MCP 协议怎么接入,Agent 的可靠性和成本怎么管控。这种讨论重心的转移,比任何报告都能说明问题——Agent 已经脱离概念验证阶段,进入实际落地周期了。

    但落地难度的提升也是真实的。Agent 从「生成回复」到「执行工作流」,意味着出错的影响范围完全不同。以前 AI 说错一句话,代价是一段不那么准确的摘要;现在 Agent 自动执行了一系列操作,哪怕其中一个环节出错,后果可能是删错数据、发错邮件、或者把订单派到错误的地址。

    电力危机,AI的下一个瓶颈

    最后一个话题有点沉重,但躲不过。AI 不是普通软件,它是高能耗的计算范式。一个 AI 密集型查询的耗电量,远高于一次传统网页搜索。大规模数据中心园区需要几百兆瓦的电力容量支撑——这个数字不是比喻,是实际的基础设施需求。

    Gartner 又有一个预测:到 2027 年,电力短缺将限制约 40% 的 AI 数据中心落地。美国目前约有一半的规划数据中心项目,因为电力基础设施和相关组件短缺被推迟或取消。钱能解决的问题都不是最难的问题,但变电站建设、变压器供应、电网接入审批——这些是工业协调问题,推进速度远慢于模型发布的节奏。

    AI 发展的下一个瓶颈不是芯片,不是模型,也不是资本——是现实世界的落地能力。

    说回太浩湖那个例子。4.9 万居民和 AI 数据中心抢电,这不是一个孤立事件,而是一个缩影。AI 扩张的基础设施成本,最终会以某种方式转嫁到社会层面。这个问题在 2026 年还只是苗头,但再过两年,它会变成政策制定者必须正面回应的问题。

  • OpenAI把Codex搬进手机了,随时能写代码这件事到底靠不靠谱

    前几天刷到一条消息,OpenAI 把 Codex 搬到手机上了。没错,就是那个在桌面端帮程序员写代码的 AI 工具,现在你可以在手机上直接生成、审阅、甚至部署代码片段。对远程团队来说这是个挺实在的更新,毕竟不是所有人时刻坐在电脑前,等不及的时候掏出手机就能改两行代码,这种灵活性以前真的没有。

    手机写代码,真不是噱头

    Codex 移动端预览版直接集成在 ChatGPT 应用里,不需要额外安装。最实用的一点是它支持远程 SSH 连接,意味着你真的可以在手机上完成一段代码的审阅、修改、然后推到服务器。当然有人担心移动环境下的代码安全,这个顾虑是合理的,毕竟手机网络比办公网络复杂得多,敏感项目的操作还是得悠着点。

    OpenAI 这次把这个功能做成预览版,说明他们自己也很清楚——移动端编码这件事,体验和安全性都还需要迭代。

    有意思的是,几乎同一时间,Anthropic 的 Claude Code 产品负责人 Cat Wu 也在公开场合聊了类似的话题。她说 Claude Code 的开发思路是不预设宏大的整体规划,更看重迭代反馈而非僵化的路线图。这话听起来有点虚,但仔细想确实有道理——AI 编码工具这种东西,你很难在发布前就把所有使用场景规划清楚,用户怎么用、在哪卡住,这些反馈比任何前期调研都值钱。

    AI辅助软件开发
    AI 正在改变软件开发的节奏(来源:coaio.com)

    企业AI架构,风向变了

    还有一个信号值得注意。行业分析里开始出现一种声音:企业级 AI 系统开发,正在从「LLM 优先」转向「代码优先」。什么意思呢?过去一年多,大家一上来就想把大模型能力塞进系统,先把聊天界面搭起来,再想业务逻辑。现在有人意识到,这样做虽然出活快,但开发者对系统的深度理解会被掩盖, Demo 做得很炫,真正跑起来全是坑。

    新思路强调「代码优先」,说白了就是先把业务逻辑、数据结构、系统边界想清楚,再用 AI 工具去加速开发,而不是反过来。这个转变背后其实是教训——太多项目在规模化部署的时候翻车,技术债务堆到还不起。


    其他值得关注的动静

    AMD 这边也有动作,宣布给 RDNA2 和 RDNA3 架构的老显卡提供硬件加速的 FSR 4 超分辨率支持。通俗点说,就是你手里那张几年前的显卡,可以通过驱动更新获得更好的游戏画质,相当于变相延长了硬件寿命。对不想频繁换卡的用户来说,这算是个小惊喜,虽然性能上肯定还是有损耗的。

    医疗 AI 这边出了个警示案例。加拿大安大略省审计发现,医生用的 AI 笔记工具频繁虚构治疗建议和处方内容。这个问题其实不意外,大模型的「幻觉」在医疗场景下后果完全不同。行业里已经开始呼吁建立更严格的 AI 输出验证机制,但这件事真正做起来,比喊口号难多了。

    最后说个有点荒诞的事——美国太浩湖地区 4.9 万居民,正在和内华达州的一个 AI 数据中心抢电。能源供应商优先给数据中心供电,居民用电反而被挤压。AI 的扩张代价,最终是普通人在承担,这个问题只会越来越突出。

  • 2026年5月AI圈大事件:GPT-5.5来了,Kimi融资20亿美元,人形机器人走向工厂






    2026年5月AI圈大事件:GPT-5.5来了,Kimi融资20亿美元,人形机器人走向工厂

    5月的AI圈,信息量爆炸。OpenAI发布了GPT-5.5,国产AI企业Kimi即将完成20亿美元融资,人形机器人展览会在杭州开幕,苹果因为AI功能虚假宣传赔了2.5亿美元……如果你没时间每天刷新闻,这篇文章帮你一次性梳理完这个月的所有大事。

    GPT-5.5来了,这次主打”不胡说”

    OpenAI在5月发布了GPT-5.5 Instant,最核心的升级是”可靠性”。之前的版本在专业领域容易”一本正经地胡说八道”,5.5在医疗、法律、金融等高风险场景的准确性有了质的飞跃,幻觉率大幅降低。

    这个方向其实很明确:企业用户要的不是模型”能聊”,而是”说对话”。ChatGPT的使用量继续攀升,企业场景渗透加速,GPT-5.5算是踩在了正确的节奏上。

    AI行业的竞争,正在从”谁的模型更聪明”转向”谁的模型更可靠”。GPT-5.5的发布,是这个转向的一个标志性节点。

    Kimi即将完成20亿美元融资

    月之暗面旗下的Kimi即将完成一笔20亿美元的新融资,投后估值大幅攀升。这是2026年国产AI领域最大的一笔融资之一。

    Kimi这波势头很猛,长文本处理能力一直是它的招牌,现在融资到位,接下来在多模态、Agent方向的投入估计会加大。国产大模型这场仗,远没到终局。

    人形机器人走向工厂,不只是演示了

    5月14日至16日,HRTE 2026杭州国际人形机器人展览会举办,主题是”人形机器人赋能新型工业化”。多款新型人形机器人亮相,工业应用场景加速落地,产业链上下游企业集中展示。

    人形机器人正在从”实验室”走向”工厂”。2026年可能是人形机器人产业化的元年,这个判断现在看来越来越扎实了。

    苹果赔了2.5亿美元,AI虚假宣传的警钟

    苹果公司同意支付2.5亿美元,和解关于AI功能虚假宣传的诉讼。这件事给整个行业敲了一个警钟:AI产品的宣传必须实事求是,过度承诺的后果是很真实的。

    监管层面也在发力。AI生成内容的合规与安全成为新的关注重点,Deepfake(深度伪造)技术被滥用的案例持续增多。行业趋势正在从”炫模型”转向”拼安全”,安全性、隐私保护和系统集成能力正在成为新的竞争维度。

    其他值得关注的动态

    • Google把Gemini塞进了Gboard:AI不再是一个需要单独打开的App,而是融入了你打字的每一个瞬间。AI正在从”工具”变成”基础设施”。
    • 微软收购Fintool AI:将其全面整合进Office全家桶,Excel、Word、PowerPoint将获得更强大的AI金融分析能力。
    • 英伟达高层到访中国:带动A股AI板块集体上涨,汉得信息等AI全产业链概念股表现活跃。
    • 国内AI社区类产品市场爆发:市场规模同比增长182%,多款涵盖教育、办公、创作、社交的产品进入测试阶段。

    回顾这个月的AI圈,几个关键趋势非常清晰:模型能力持续提升,资本持续涌入,产业加速落地,安全成为新焦点。对于普通人来说,最重要的信息是:AI正在从概念走向实用。不管你是学生、职场人还是创业者,现在都是开始学习和使用AI的最佳时机。


  • 谷歌I/O 2026大会落幕:Gemini 3.5 Flash速度飙升4倍,AI智能体全面入侵安卓生态






    谷歌I/O 2026大会落幕:Gemini 3.5 Flash速度飙升4倍,AI智能体全面入侵安卓生态

    谷歌I/O 2026大会
    谷歌I/O 2026开发者大会现场 (图源:腾讯新闻)

    北京时间5月20日凌晨1点,谷歌I/O 2026开发者大会在美国加州山景城开幕。这场发布会持续了两天(5月19-20日),核心主题只有一个:把AI智能体塞进你生活的每一个角落。

    先说最硬核的模型更新。Gemini 3.5 Flash来了,官方数据是输出Token速度约其他前沿模型的4倍。这个数字背后意味着什么?你让AI帮你写代码、跑长任务,别的模型还在”思考”,它已经把结果甩到你脸上了。谷歌这次明显是冲着AI Agent和编程工具场景去的,速度就是生产力。

    Gemini 3.5 Flash的定位很清晰:不是最聪明的模型,但是最快的。对于那些需要反复调用、长工作流的场景,速度比绝对智能更重要。

    视频生成模型Gemini Omni亮相

    DeepMind首席执行官德米斯·哈萨比斯亲自登台,发布了基于世界模型能力的视频生成模型Gemini Omni。这个模型支持多模态输入生成视频,还能用自然语言对话式编辑——你想改角色、换背景、调场景,直接说就行。

    首款面向用户的模型Gemini Omni Flash将于2026年夏季推出。视频生成这块,谷歌终于开始认真跟Sora、Runway们掰手腕了。

    Android XR智能眼镜,手机可以不用掏了

    Android XR智能眼镜
    Android XR智能眼镜演示 (图源:腾讯新闻)

    谷歌联合Gentle Monster、Warby Parker、三星推出了Android XR智能眼镜,分两类:一类是纯语音眼镜(没有显示屏),另一类可以把信息投射到视野前方。

    现场演示很有意思:佩戴者要让Gemini帮自己点一杯咖啡,导航到咖啡馆、打开DoorDash、准备好常点的氮气冷萃订单,全程没掏手机,最后只需点头确认下单。Gentle Monster和Warby Parker联名款是语音版,2026年秋季上市,支持配对iOS和Android设备。

    Gemini Spark:关机的手机也能跑AI助手

    这个产品有点颠覆认知。Gemini Spark是运行在Google Cloud虚拟机上的全天候个人AI助手,即使你的设备关机了,它还能在后台继续工作。它能自动汇总信息、追踪活动参与情况、发送跟进邮件、生成表格和宣传册。

    本周向受信任测试人员开放,下周向美国Google AI Ultra订阅用户开放。谷歌还新推出了100美元/月的低价Ultra套餐,2026年夏季将支持在Chrome浏览器中运行。

    其他值得关注的更新

    • Ask YouTube:在YouTube网站加入聊天机器人交互界面,支持自然语言搜索直接跳转至视频对应片段,2026年夏季将在美国扩大推广
    • Docs Live:支持通过语音与Google Docs对话,无需输入提示词,可自动从Google Drive、Gmail提取信息辅助文档创建和编辑
    • Antigravity 2.0:面向AI Agent时代的编程平台,直接对标Anthropic Claude Code、OpenAI Codex
    • Universal Cart:AI智能体驱动的通用购物车,可跨场景添加商品,追踪优惠、监控价格变动、显示价格历史
    • SynthID扩展:可识别图片是否为AI生成,用户可直接询问图片的生成属性

    整体来看,谷歌这次的方向非常明确:AI不再是一个需要单独打开的App,而是融入你打字的每一个瞬间、导航的每一个路口、购物的每一个决策。智能体时代,谷歌想做那个无处不在的底色。


  • 拒绝2000万美元收购,这个AI工具创始人要把开源项目做成百年公司

    NanoClaw的创始人Gavriel Cohen这几天成了AI圈的热门人物。他和兄弟Lazer Cohen一起做的开源项目NanoClaw,在短时间内从沙发上的代码变成了一家融资1200万美元的公司——而且他们还拒绝了一份约2000万美元的收购要约。

    NanoClaw 联合创始人合影
    NanoClaw 联合创始人 Gavriel Cohen(左)和 Lazer Cohen(右)(来源:NanoClaw)

    六周内从代码到投资条款清单

    Gavriel说,从写下第一行代码,到拿到投资条款清单,全程不到六周。这段时间发生了什么?项目在开源社区迅速走红,AI研究者Andrej Karpathy在推特上夸了NanoClaw,然后新加坡外交部长在Facebook上发帖称NanoClaw是他的”第二大脑”,这篇帖子迅速走红。

    热度一来,投资人的消息就蜂拥而至。Gavriel估计有50多位创始人、科技行业高管发私信表示想要投资。Hugging Face的CEO Clem Delangue也是其中之一。

    NanoClaw最初是作为OpenClaw的安全替代方案被开发出来的。和OpenClaw直接在电脑上运行、可以访问所有服务和凭证不同,NanoClaw在容器中以沙箱模式运行。这种方式正逐渐成为部署更安全的OpenClaw类产品的通用解决方案。


    为什么要拒绝2000万美元

    就在他们考虑一份六位数美元的报价时,他们遇到了一位创始人朋友,对方给出了一个关键见解:开源项目的价值会随着社区规模扩大呈指数级增长。这些用户不仅可以帮助贡献代码,让项目快速成熟,还能探索出各种使用场景、做实践验证。

    这位朋友告诉他们,如果他们相信NanoClaw能成为这类项目,就必须关停其他业务,全身心投入NanoClaw。Gavriel后来说:”他说得对。”

    在他们关停此前的业务、全身心投入NanoClaw后不久,就出现了病毒式传播的帖子,新公司也和Docker、Vercel达成了合作。

    在那份六位数报价的约两周后,他们又收到了另一份收购要约,报价约2000万美元,还包含让他们留任继续运营公司的职位。兄弟俩再次拒绝了这份要约。


    从开源项目到企业服务

    NanoCo现在已经开始签约企业客户,这个想法来自社区。产品的早期用户都是具备技术能力的人,其中很多是大型科技公司的管理层。这些用户自己部署好NanoClaw实例后,不断有同事找他们帮忙做同样的部署。

    Cohen解释道,这些人不想变成NanoClaw的IT运维人员,但NanoCo愿意做这件事。所以公司现在提供部署服务,也就是现在常说的”前向部署工程师”服务,帮助企业向员工推广NanoClaw AI智能体,并提供持续支持。

    虽然NanoCo拒绝透露早期企业客户的具体身份,但兄弟俩表示,亚马逊、Gap、谷歌、Meta、SentinelOne、埃森哲等公司的管理层都在使用NanoClaw。

    从一个沙发上的开源项目,到拒绝2000万美元收购、融资1200万美元,再到服务亚马逊和Meta这样的巨头——NanoClaw的故事,是这一波AI智能体浪潮中,开源创业者如何把技术社区变成商业价值的生动案例。

  • Stability AI放大招:新音频模型能生成6分钟专业音乐,还把模型权重开源了

    Stability AI这几天扔出了一个重磅消息——Stability Audio 3.0系列音频模型正式发布。如果你对这家公司的名字有点印象,没错,它就是Stable Diffusion的开发公司。

    四款模型,两种策略

    这次一口气发布了四款模型,参数规模从4.59亿到27亿不等。小模型可以在设备上直接跑,生成最长2分钟的音频内容。中型和大型模型更猛,能生成6分20秒的完整音乐作品,而且还能保持稳定的音乐结构和旋律基调。

    生成时长是2024年发布的Stable Audio 2.0的两倍以上。要知道,2024年他们发布的Stable Audio Open只能生成最长47秒的音乐,这次算是一次大跨步的升级。

    最有意思的是他们对不同模型的开放策略。两款小型模型(音效模型459M、音乐模型459M)和中型模型(1.4B)都以开放权重的形式发布,任何用户都可以免费使用、修改。但大型模型(2.7B)就没这么大方了,只通过API和付费自托管服务开放使用,而且年营收超过100万美元的企业还需要获取企业级授权才能用。


    版权是生死线

    训练数据是这套模型的一大卖点。Stability AI表示,本次最新发布的音频模型系列完全基于已获得授权的数据训练。这一点很重要,因为AI音乐生成这个赛道,版权问题一直是悬在头顶的达摩克利斯之剑。

    去年Stability AI已经和华纳音乐集团、环球音乐集团达成合作,共同开发模型和音乐创作工具。和其他竞争对手比起来,这在版权合规性上确实更有底气。毕竟Suno和Udio相关的版权诉讼已经证明,数据授权以及与音乐厂牌的合作,将是这类服务长期生存的关键因素。

    Stability Audio 3.0 模型对比图
    Stability Audio 3.0 四款模型参数对比(来源:Stability AI)

    专业音乐人赛道开打

    目前谷歌、ElevenLabs等多家公司都在推出音乐生成相关的模型和工具,赛道越来越挤。Stability AI这边也在为专业音乐人开发一套全新的产品,前Universal Audio和Fender首席数字官Ethan Kaplan已经加入公司,将负责Stability的专业音乐业务。

    这个人事任命挺有意思。Ethan Kaplan在音乐硬件和软件领域都有很深的根基,他去Stability AI,说明这家公司不只是想做个”能生成音乐的AI玩具”,而是真的想往专业音乐制作流程里扎根。

    最近不少AI公司都在通过聘请音乐行业高管来提升自身行业资质。今年早些时候Suno聘请前Merlin CEO Jeremy Sirota担任首席商务官,ElevenLabs也聘请独立音乐发行商Kobalt的Derek Cournoyer担任音乐业务战略负责人。

    看起来,AI音乐生成赛道正在从”谁能生成好听的音乐”转向”谁能搞定版权、搞定音乐行业”。技术只是入场券,版权和行业资源才是长期竞争力的核心。


    普通创作者能用上吗

    对于普通创作者来说,Stability Audio 3.0的开源小模型是个好消息——你不需要花一分钱,就能在自己的设备上生成最长2分钟的音乐和音效。但如果你想用最好的大模型,或者你是年营收超过100万美元的企业,那就得按商业授权来了。

    这套模型的发布,让AI音乐生成赛道的竞争从”谁的模型能生成更长的音乐”升级到了”谁的版权合规性更强、谁更懂专业音乐人的需求”。Stability AI这一步棋,下得挺聪明。