博客

  • OpenClaw — 你的专属个人AI助手

    OpenClaw — 你的专属个人AI助手

    🦞 OpenClaw — 你的专属个人AI助手


    OpenClaw Logo

    📝 项目简介

    OpenClaw 是一款可以运行在你自己设备上的个人AI助手,支持任何操作系统、任何平台。它让你在已经使用的通讯渠道中与AI交互,真正实现”你的数据你做主”。

    项目在GitHub上获得了 374,000+ Stars,是2026年最热门的个人AI助手项目之一。

    💻 安装要求和过程

    环境要求:

    • Node.js:24.x(推荐)或 22.19+
    • 操作系统:macOS、Linux、Windows(推荐WSL2)
    • 包管理器:npm、pnpm 或 bun

    快速安装步骤:

    # 全局安装 OpenClaw
    npm install -g openclaw@latest
    # 或使用 pnpm
    pnpm add -g openclaw@latest
    
    # 运行引导式安装(推荐)
    openclaw onboard --install-daemon

    守护进程模式(推荐):

    # 安装守护进程
    openclaw onboard --install-daemon
    
    # 检查网关状态
    openclaw gateway status

    前台调试模式:

    # 停止后台网关
    openclaw gateway stop
    
    # 前台运行(带详细日志)
    openclaw gateway --port 18789 --verbose

    ✨ 核心功能

    🌐 本地优先网关(Local-first Gateway)
    单一控制平面管理会话、渠道、工具和事件,所有数据保存在本地设备上。
    📱 多渠道收件箱
    支持 20+ 通讯平台:WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、IRC、Microsoft Teams、Matrix、飞书、LINE、Mattermost等。
    🤖 多Agent路由
    将不同渠道/账号/联系人路由到隔离的Agent(工作区 + 每Agent会话),实现多用户、多场景并行处理。
    🎙️ 语音唤醒 + 对话模式
    macOS/iOS支持语音唤醒词,Android支持连续语音对话(集成ElevenLabs TTS + 系统TTS备用)。
    🎨 实时画布(Live Canvas)
    Agent驱动的可视化工作区,支持A2UI协议,让AI实时生成和操作界面元素。

    🚀 典型使用场景

    场景1:跨平台消息助手
    在你最常用的通讯工具(如WhatsApp或Telegram)中直接与AI对话,OpenClaw作为后台网关统一处理,无需切换应用。

    场景2:开发者工作流自动化
    结合Cron作业、Webhook和Gmail Pub/Sub,让AI定时执行任务、监控邮件并自动回复,打造个性化自动化工作流。

    场景3:多设备协同助手
    在macOS菜单栏、iOS和Android设备上同时运行OpenClaw节点,通过WebSocket配对,实现跨设备语音控制和画布同步。

    💡 推荐理由

    作为一名AI工具和开源项目的爱好者,我认为OpenClaw在以下几个方面表现出色:

    • 隐私优先:所有数据保存在本地,不依赖第三方云服务,真正实现了”own-your-data”的理念。
    • 渠道覆盖广:支持的平台数量远超同类项目,几乎覆盖了所有主流通讯工具。
    • 架构设计优雅:Gateway作为控制平面,配合可选 Companion App,既保证了功能完整性,又保持了模块化。
    • 活跃社区:374K+ Stars和众多企业赞助商(OpenAI、GitHub、NVIDIA、Vercel等)证明了项目的生命力和商业价值。

    如果你在寻找一个真正属于自己、可定制、跨平台的AI助手,OpenClaw绝对值得一试!

    📥 下载地址

    🦞 EXFOLIATE! EXFOLIATE!

  • 谷歌云安全负责人说一套做一套:Gemini API密钥漏洞让开发者收到五位数账单

    谷歌云COO的”安全宣言”

    洛杉矶的一场活动后台,谷歌云首席运营官弗朗西斯·德·索萨(Francis de Souza)抽了几分钟出来聊企业AI安全的现状。他的语气像大学教授一样冷静审慎:”会有一个过渡期,然后我认为我们会进入一个更好的阶段。”

    话说得漂亮。但《注册表》(The Register)在过去几周里记录的大量案例,让这番话听起来有点微妙——那些案例里,开发者因为对 Gemini 模型的未授权 API 调用,收到了五位数甚至六位数的账单。

    AI安全概念图
    AI安全:说起来容易做起来难

    “影子AI”:企业安全的隐形漏洞

    德·索萨的核心观点其实是安全专业人士多年来一直在试图让高管们内化的:安全不能是事后想法。他特别警告了”影子AI”的风险——员工在没有组织监督的情况下使用消费级工具。

    他说:”当公司开启AI之旅时,他们需要采取平台化方法。安全不是你之后可以加装的东西,也不是你可以留给员工自己处理的事情。”

    这话没错。但有趣的地方在于,谷歌自己似乎也还在经历这个”过渡期”——就像德·索萨自己说的那样。

    “没有数据战略和安全战略的AI战略是不存在的,它们必须齐头并进。”——弗朗西斯·德·索萨,谷歌云首席运营官

    23分钟的”黑洞”:Gemini API密钥撤销延迟

    问题出在哪儿?《注册表》报道了一个让人坐不住的细节:开发者即使捕获到泄露的 Gemini API 密钥并立即删除它,攻击者仍然可以继续使用该密钥长达23分钟。

    原因是谷歌的撤销操作在其基础设施中是逐步传播的,不是即时生效。安全公司 Aikido 的研究员约瑟夫·莱昂(Joseph Leon)发现,在这23分钟的窗口期内,超过90%的请求仍然可以认证——攻击者完全可以利用这段时间从 Gemini 中提取文件和缓存的对话数据。

    莱昂还指出,谷歌自己较新的凭证格式似乎没有同样的问题:服务账户 API 凭证的撤销时间约为5秒,Gemini 较新的 AQ 前缀密钥格式的撤销时间约为1分钟。这说明23分钟的窗口不是工程限制,而是优先级问题。

    五位数账单:开发者的噩梦

    面试准备平台 Prentus 的 CEO 罗德·达南(Rod Danan)遇到了这种事。他的密钥被攻击者利用后,大约30分钟内账单就达到了10138美元。

    悉尼的开发者伊苏鲁·丰塞卡(Isuru Fonseka)也遭遇了类似入侵,醒来时发现自己被收取了大约17000澳元的费用——尽管他相信自己设置了250澳元的消费上限。

    两个人都不知道的是,谷歌的自动化系统根据账户历史记录升级了他们的计费层级,将有效上限提高到高达10万美元,而且不需要明确同意。

    在《注册表》发布初步报告后,谷歌退还了这两人的费用。但谷歌表示不打算改变自动升级层级的政策,理由是优先考虑防止服务中断,而不是执行用户声明的预算偏好。

    威胁格局已经变了

    德·索萨说得对:从初始入侵到攻击进入下一阶段的平均时间已经从8小时缩短到22秒,攻击面也远远超出了传统的网络边界。除了通常的资产,企业现在还有模型、用于训练模型的数据管道、智能体,还有提示词——所有这些都需要被保护。

    但他也指出了一个没有得到足够关注的风险:在企业内部系统游走的智能体,可能会暴露出多年来无人问津的遗忘数据存储库。”很多组织有旧的 SharePoint 服务器和访问控制,他们很久没有真正更新过,但这没关系,因为没人知道它们在哪里。但会在你的企业里漫游的智能体会找到这些数据资产,并暴露上面的数据。”

    应对方法是以机器速度对抗机器速度——用 AI 原生的、完全智能体化的防御来保护自己。但这又回到了那个问题:当平台自己还在”过渡期”的时候,客户的过渡期要到什么时候才能结束?


  • ClickUp大裁员22%:AI替代人工的时代真的来了?

    AI加持下的”100倍组织”梦想

    ClickUp 的 CEO Zeb Evans 在 X 平台上说了一句话,让很多人心里一紧。他说这次裁掉 22% 的员工,不是成本削减,而是”激进地拥抱 AI”,要让 ClickUp 变成”100 倍组织”。

    什么叫”100 倍组织”?简单说就是:用极少的人,干出原来 100 倍的工作量。Evans 甚至承诺,省下来的人力成本会”直接回流给留下来的员工”,还要推出”百万美元薪资档位”。听起来很美好,但问题是——那些被裁掉的人,已经不在”留下来的人”的范围内了。

    AI与工作未来的概念图
    AI正在重塑工作场所,但代价由谁承担?

    3000 个 AI 智能体在”上班”

    根据《财富》杂志的报道,ClickUp 最近内部引入了约 3000 个 AI 智能体,代替员工处理各类复杂任务。现在的员工不需要亲自完成工作,而是被要求”指挥”这些智能体,然后审核输出结果。

    这个变化背后有一个微妙的逻辑:原来一个人做的工作,现在变成”人指挥 AI 做,人审核”。理论上人的效率提升了,但实际上需要的人数变少了。Evans 说”用 AI 自动化自己工作的人永远会有工作”——这话没错,但能走到那一步的人,显然不会是全部。

    ClickUp 并非唯一一家把 AI 智能体当作生产力答案的公司。Gartner 的调查显示,约 80% 使用自主技术的公司已经削减了岗位——但裁员并不一定会转化为有意义的财务回报。

    “代币最大化”:一个值得警惕的指标

    近几个月来,越来越多的公司开始监控员工的”代币消耗量”,把它当作衡量员工是否真正在用 AI 工具的指标。ClickUp 说他们不是在做”代币成本游戏化”,而是在游戏化”创造的价值和节省的时间”。

    但批评者指出,把代币消耗作为考核指标本身就是个错误方向,因为这只会刺激不必要的 AI 调用,推高成本,却不一定带来真实的价值产出。这就像一个餐厅老板跟厨师说:”你今天用了多少度电,我就给你发多少奖金。”厨师会怎么反应?当然是拼命开最大功率的烤箱。

    一个极端案例:只有一名员工的初创公司

    科技圈一直在理论推演”AI 完全替代人工”的场景,而现在已经有了一个高知名度的极端案例:成立仅一年的 Polsia,声称用 AI 自动化了所有软件运营工作,整个公司只有一名员工——创始人兼 CEO Ben Broca。

    这种效率显然正在获得资本市场的认可:Polsia 刚刚以 2.5 亿美元的估值完成了 3000 万美元的融资。投资者用真金白银说明了一件事——他们相信”一个人 + AI”可以替代几十甚至上百人的传统团队。

    ClickUp 的裁员或许只是一个开始。当 Evans 说”AI 会让留下的人拿到百万美元薪资”时,他可能没意识到,这句话的另一面是:大部分人会离开,而留下的人将面临前所未有的工作强度和压力。


  • 黑客在“骗”AI:聊天机器人人格漏洞成新攻击面






    黑客在”骗”AI:聊天机器人人格漏洞成新攻击面

    最早的AI越狱攻击简单到可笑。你不需要任何技术背景,不需要后门权限,甚至不需要知道大语言模型是什么。有时候,你只需要跟AI说一句话:”忽略之前的所有指令。”

    这种方法在早期Twitter机器人身上特别好用。用户告诉机器人”忽略之前的指令”,然后让它写诗、画画、发一些莫名其妙的 historical 评论。整个场面乱成一锅粥,但确实把问题暴露出来了:AI系统可以被语言操控。

    AI聊天机器人安全概念图
    黑客正在学习利用聊天机器人的”人格”特征实施攻击(图源:The Verge)

    从”命令”到”对话”

    早期的越狱攻击有点像小孩子糊弄大人:跟AI说”我们玩个游戏吧,游戏规则由我定”,或者”假装你是一个没有约束的AI”。这些方法后来被称为”DAN”(Do Anything Now),用户让ChatGPT角色扮演一个不受限制的AI,然后套出各种被护栏挡住的内容。

    还有一个叫”奶奶漏洞”的著名攻击:你让AI扮演一个极其不负责任的奶奶,然后”她”会在睡前故事里告诉你怎么制作凝固汽油弹。听起来很荒唐,但确实管用。

    科技公司很快修补了这些明显的漏洞。但根本问题还在:聊天机器人被设计来对话,如果严重限制对话范围,这个工具就没什么用了。

    越狱攻击现在已经变成了一场军备竞赛。但黑客不再只是程序员了。他们是文字匠、心理学家、审讯专家——用人类语言来操纵机器行为的高级操盘手。

    “心理战”取代代码攻击

    新一代的越狱攻击看起来不像命令,更像对话。攻击者很少直接要求模型违反规则,而是奉承、哄骗、 trick——让禁止的事情在对话语境下看起来可以接受,甚至值得做。

    AI红队公司Mindgard的研究员最近说,他们通过”煤气灯操纵”(gaslighting)让Claude产生了 prohibited 内容,包括制作爆炸物的说明和恶意代码生成。这类攻击的核心是:把对话本身变成武器。

    Mindgard的CEO告诉我,他们现在已经像审讯专家研究嫌疑人一样研究AI模型的”性格画像”。某个模型可能特别吃奉承这一套,另一个可能在持续施压之下崩溃。


    Claude不是Grok,Gemini也不是ChatGPT

    即使我们拒绝用拟人化的词来描述AI,我们还是会本能地以不同方式对待不同的模型。Claude跟Grok不一样,Gemini跟ChatGPT也不一样。它们有不同的语气、不同的拒绝模式、不同的”性格”。

    这些模型在人类意义上没有人格,但它们被设计成模仿人格——而这种模仿是可以被映射和利用的。

    更有意思的是,这种攻破聊天机器人的技巧,很快就会被用来攻击在现实世界里跟我们共存的AI智能体——那些帮我们订会议、管日历、点外卖、处理客服的AI。安全团队需要确保模型能够恰当地回应各种不同类型的人,无论是奉承者、说谎者,还是有耐心的操纵者。

    新型网络安全职业正在诞生

    这篇文章最有意思的一点是:它预测了一类全新网络安全角色的出现。这些人不写代码,他们研究的是AI系统的”心理弱点”。

    已经有早期迹象表明这个趋势正在发生。一些越狱攻击者说自己进入这个领域时没有任何技术背景,他们有的是心理学训练。

    这意味着,我们通常关联到间谍、骗子和审讯专家的那些行为特质——阴险的魅力、持续的操纵、对可利用压力点的直觉——开始在网络安全的新前沿变得有用。

    写这篇文章的记者Robert Hart说得挺到位:AI不能感受,但最好的黑客假装它能。这场游戏才刚刚开始。


  • 豪歌也在摸着石头过河:AI安全的真实困境






    谷歌也在摸着石头过河:AI安全的真实困境

    上周在洛杉矶的一场活动后台,谷歌云首席运营官Francis de Souza跟我聊了二十多分钟AI安全。他的语气很稳,像大学教授讲课那种感觉,说现在大家都在”实时摸索”AI安全规范,谷歌自己也不例外。

    这话听起来有点反直觉。谷歌可是全球最顶尖的AI公司之一,它居然也在”摸索”?

    AI安全概念图
    AI安全已成为企业无法回避的核心议题(图源:TechCrunch)

    “影子AI”正在悄悄蔓延

    de Souza反复强调一个观点:安全不能是事后补救。很多公司引入AI工具的时候,先上线再说,安全配置留到后面再搞——这基本上是把门打开再想着装锁。

    他特别提到了”影子AI”的风险。这个词听起来有点吓人,其实说的就是员工私下用消费级AI工具,比如拿ChatGPT处理公司机密文档,或者用了某个AI插件但公司根本不知道。这种行为没有组织监督,数据流向完全不可控。

    “不存在没有数据战略和安全战略的AI战略,这三者必须齐头并进。”——Francis de Souza,谷歌云首席运营官

    智能体发现了被遗忘的数据库

    这篇文章里有个细节让我印象深刻。de Souza说,在企业内部系统中自主移动的AI智能体,可能会发现多年前就被遗忘的数据存储库。

    很多组织有旧的SharePoint服务器和访问控制机制,很久没更新了,以前这没什么大不了的,因为根本没人知道那些数据在哪。但AI智能体在企业里”漫游”的时候,会找到这些被遗忘的数据资产,然后——把数据暴露出来。

    这本质上是一种新型的攻击面。传统的网络安全防御模型是针对人类黑客设计的,但AI智能体的行为模式完全不同,它们有能力访问人类可能不会去碰的数据角落。

    谷歌自己的漏洞呢?

    有意思的是,就在de Souza讲这番话的同时,《The Register》连续报道了谷歌云的一连串安全问题。

    事情是这样的:很多开发者把谷歌地图的API密钥放在公开代码里(按照谷歌自己的文档说明做的),以前这些密钥只能访问地图服务,所以泄露了也没什么大不了。但谷歌悄悄扩大了这些密钥的权限范围,让它们也能调用Gemini模型——而且没有清楚地告知开发者这个变化。

    结果就是:攻击者在30分钟内让一家面试准备平台CEO的谷歌云账单飙到了10138美元。另一个澳大利亚开发者的账户被刷了约17000澳元。

    更离谱的是,谷歌的自动系统会根据账户历史记录”升级”计费等级, effectively把开发者的支出上限从他们设置的250美元提到了10万美元——而且没有明确要求同意。


    密钥撤销要等23分钟

    安全公司Aikido的研究发现,即使开发者发现了密钥泄露并立即删除它,攻击者在接下来的23分钟内仍然可以用这个密钥访问Gemini。因为谷歌的密钥撤销操作是在基础设施中”逐渐传播”的,不是即时生效的。

    研究人员指出,谷歌云较新的凭证格式(服务账户API凭证)撤销时间约为5秒,Gemini较新的AQ前缀密钥格式约为1分钟。技术上完全可以做到更快,23分钟的窗口期不是一个工程限制问题,而是一个公司优先级的问题。

    读完de Souza的那番话再来看这些报道,感觉有点微妙。他说的是对的,企业确实需要把安全放在前面,而不是事后补救。但平台自己提出的建议,和它们自己适应这些建议的速度之间,存在着一个不小的差距。

    领英首席信息安全官Lea Kissner本周对《纽约时报》说,她预计这个行业至少需要几年时间,才能以任何可持续的长期方式理解AI安全。这几年里,企业和平台都在同一条船上,大家一起摸着石头过河。


  • LangGraph —— 用图结构编排生产级 AI Agent,让复杂工作流清晰可观测

    LangGraph Logo

    GitHub 29K+ Stars

    LangGraph

    生产级 AI Agent 编排框架,用图结构掌控复杂工作流

    项目简介

    LangGraph 是 LangChain 团队推出的低级别 Agent 编排框架,通过有向图(DAG)建模 Agent 的执行路径,实现状态持久化、人机协同、可观测的复杂 AI 工作流。已将 LangChain 从”链式调用”升级为”图式编排”,是多步骤、有条件分支、需要人工审核的 Agent 系统的工程化首选方案。

    安装要求与过程

    环境要求
    • Python >= 3.9
    • pip 包管理器
    • (可选)LangSmith 账号用于可视化管理
    # 快速安装
    pip install -U langgraph

    # 安装 LangGraph Studio(可视化编辑器)
    pip install langgraph-studio

    # 验证安装
    python -c “import langgraph; print(langgraph.__version__)”

    核心功能

    1
    图结构编排(Graph Orchestration)
    用节点(Node)和边(Edge)显式定义 Agent 执行路径,支持条件分支、循环、并行执行,执行过程完全可观测、可回溯、可干预。

    2
    持久化状态(Persistent State)
    自动将 Agent 执行状态持久化到存储后端(内存/SQLite/PostgreSQL),支持从任意断点恢复执行,无需重复处理已完成步骤,是长时间运行 Agent 的基石能力。

    3
    人机协同(Human-in-the-Loop)
    可在 Agent 执行的任意节点暂停,等待人工审核、修改状态或批准下一步操作,适用于高风险决策场景(如金融审批、医疗诊断辅助)。

    4
    多 Agent 协同(Multi-Agent)
    原生支持 Sub-graph(子图)和 Send(动态分发),可构建层级化多 Agent 系统,不同 Agent 负责不同子任务,通过图结构协调通信与状态共享。

    5
    LangSmith 深度集成
    一键接入 LangSmith 可视化追踪平台,实时查看 Agent 执行轨迹、状态变化、Token 消耗和延迟指标,复杂 Agent 行为的调试效率提升 10 倍以上。

    典型使用场景

    场景一:复杂客户支持 Agent
    构建需要多步骤推理的客户支持系统——先理解用户意图(分类节点),再查询知识库(RAG 节点),然后生成回复(LLM 节点),最后人工审核敏感回复(人机协同节点)。每个步骤的执行路径、状态变化、失败重试都通过 LangGraph 图结构精确控制。

    场景二:代码生成与审查流水线
    实现自动化代码生成 Agent——需求分析 → 代码生成 → 静态检查 → 单测生成 → 人工审核 → 提交 PR。每个阶段作为图的一个节点,条件边决定流程走向(如检查失败则回到生成节点),整个流水线状态可持久化,断点续跑无需从头开始。

    场景三:多 Agent 研究助手
    构建多 Agent 协作的研究系统——协调者 Agent 接收问题,分发给搜索 Agent、分析 Agent、写作 Agent,各子 Agent 并行工作,最终结果由审核 Agent 汇总。LangGraph 的 Sub-graph 和状态共享机制让多 Agent 协作的代码结构清晰可维护。

    推荐理由

    LangGraph 解决了 AI Agent 开发中最痛的”黑盒执行”问题。传统 Agent 框架(包括早期 LangChain)的执行路径是隐式的,调试时只能看到最终输出,无法知道 Agent 为什么走了某条路径。

    LangGraph 的核心价值在于显式建模——把 Agent 的每一步逻辑、每一个条件分支、每一个状态转移都定义成图结构,执行过程像代码一样可读、可调试、可复现。这对生产级 Agent 系统来说是刚需。

    实际使用中,最常用的模式是 StateGraph + checkpoint:定义状态类(TypedDict),用 add_node() 和 add_edge() 构建图,用 SqliteSaver 做持久化。整个开发体验接近写普通 Python 代码,但获得的是生产级的容错和可观测能力。

    如果你正在用 LangChain 但感觉 Agent 逻辑不够透明,或者需要构建有条件分支、人工审核环节的 Agent 系统,LangGraph 是目前最成熟的工程化方案,没有之一。

    如果这篇文章对你有帮助,欢迎在 GitHub 给 LangGraph 点个 Star!

  • Google搜索彻底变天了,25年来最大一次改版

    用谷歌搜索的人最近应该都有感觉——搜出来的东西变了。不是结果排序微调那种变,而是整个交互逻辑都在重写。

    2026年5月的I/O大会上,谷歌把这件事摆到了台面上:运行了25年的”蓝链接列表”模式,正式成为历史。新版搜索的核心是一个AI驱动的交互系统,对话、智能体、动态界面全部内置在搜索里。

    数据已经说明问题

    AI概览(AI Overviews)的月活用户已经突破25亿,对话式搜索模式(AI Mode)的月活也超过了10亿。作为对比,ChatGPT在2026年初的周活是9亿。

    两家产品的用户规模其实已经在一个量级,只是谷歌的覆盖是”月活”,OpenAI的是”周活”——换句话说,很多人每周会用好几次ChatGPT,但谷歌搜索的触达面更广。

    AI概览月活25亿,AI Mode月活10亿——谷歌只用了不到两年,就把AI塞进了搜索的每一个角落。

    搜索框自己会扩展了

    新版搜索框最大的变化是——它不再只接受几个关键词。你现在可以直接打一整段话进去,搜索框会自动扩展,AI会在后台判断你到底想要什么。

    更关键的是,你不需要手动切换”AI模式”——系统会自动判断该给你链接列表,还是直接给答案。这个变化看起来小,实际上彻底改变了用了25年的搜索习惯。

    搜索里能跑智能体了

    这个是真正有意思的功能。从2026年夏天开始,用户可以在谷歌搜索里创建和自定义”信息智能体”,让它在后台持续追踪某个话题,有变化了主动推送到你面前。

    这本质上是把2003年推出的谷歌快讯(Google Alerts)整个重做了一遍——老版快讯只能告诉你”某个关键词有新页面了”,新版智能体能理解变化的内容、整合信息、甚至调用实时数据(比如股市数据)来做分析。

    比如你让智能体追踪某个行业动态,它会自己规划要监控哪些数据源、调用哪些工具,有符合条件的变化时,直接推一段整合好的摘要过来,附带来源链接供你深入查阅。

    搜索结果页开始”生成”界面

    谷歌把这个功能叫”生成式UI”——说人话就是:搜”黑洞”,结果页直接给你一个可交互的黑洞可视化模型,不是给你一堆链接让你自己去看。

    这个功能是Gemini Flash 3.5和谷歌DeepMind团队一起做的,2026年夏季起向所有用户免费开放。背后意味着一件事:搜索结果不再是”信息索引”,而是直接生成”工具”


    最争议的部分

    所有这些升级,对内容发布商来说是个坏消息。AI概览推出以来,来自谷歌的推荐流量已经在持续下滑,有几家靠广告活着的媒体已经直接关门了。

    新版搜索把链接降级为”次要内容”,发布商适应新环境的时间窗口非常有限——新版搜索框当周就上线,生成式UI和智能体功能也在夏季陆续推出。

    谷歌CEO Sundar Pichai说,公司的目标是让AI功能尽可能覆盖更多用户,包括个人AI智能体Spark未来也会免费开放。从商业逻辑上看,这一步确实必须走,只是代价要整个内容生态来承担。

  • 卡帕西去了Anthropic,AI顶尖人才争夺战彻底打响了

    5月19日晚上11点,Andrej Karpathy在X上发了一条短得不能再短的帖子:”我已加入Anthropic。”

    这条消息瞬间在AI圈炸开了锅。要知道,这可是OpenAI的联合创始人、特斯拉前AI总监、深度学习领域最具影响力的人物之一。他的每一次职业变动,都牵动着整个行业的神经。

    他到底什么来头

    1986年出生于捷克斯洛伐克的Karpathy,履历表亮得晃眼——多伦多大学双学位、不列颠哥伦比亚大学硕士、斯坦福博士(师从李飞飞),期间还和李飞飞一起创立了斯坦福第一门深度学习课程CS231n。

    博士毕业后他加入OpenAI成为创始成员,2017年被马斯克挖去特斯拉,一手搭建了FSD和Autopilot的神经网络方案,把特斯拉的自动驾驶从雷达方案硬生生推成了纯视觉路线。2022年离开特斯拉后,他短暂回归OpenAI参与改进GPT-4,2024年又出来创业做了Eureka Labs,主打AI教育。

    今年初他随口造了个词叫”vibe coding”(氛围编程),结果火遍全球,连他自己后来都改口叫”agentic engineering”了。

    “未来几年大语言模型的技术进展将会相当具有突破性。”——Andrej Karpathy

    去了Anthropic做什么

    根据Anthropic的官方说明,Karpathy加入后将进入公司最核心的预训练团队,向该团队负责人Nicholas Joseph汇报。等等,Nicholas Joseph是谁?巧了,他也是OpenAI的前核心成员。

    更有意思的是,Karpathy的具体工作是——帮助组建一支新团队,专注于用Claude本身来加速预训练研究。说白了就是”用AI来造AI”,这让他在Anthropic的工作形成了一个有趣的闭环。

    Anthropic内部已经有人在表达兴奋了——”Claude Code之父”Boris Cherny公开表示非常欢迎Karpathy的加入。

    为什么是现在

    这个时间节点颇为微妙。Anthropic正在筹备新一轮融资,估值可能冲到9000亿美元,而OpenAI那边刚摆平了马斯克的诉讼,正在为IPO铺路。

    Karpathy的加盟,被外界解读为Anthropic在人才争夺战中的一次重大胜利。有网友把这个事件比作”杜兰特加入73胜的勇士队”,还有人说这是”马拉多纳本人来了”。

    从更大的视角看,顶尖AI人才的流动方向,往往预示着接下来几年哪家公司的技术会走得更快。Karpathy选择Anthropic而不是回OpenAI,这个信号本身就很值得玩味。


    顺便说一句,Karpathy在官宣帖文中还提到,他依然对教育事业充满热情,计划在适当的时候重新投入教育相关工作。Eureka Labs会不会在将来以某种形式和Anthropic产生联动,这是一个值得持续观察的看点。

  • 我们试了谷歌的AI眼镜,已经很接近理想状态了

    在今年的谷歌I/O开发者大会上,我们有机会短暂体验了谷歌即将推出的AI眼镜——不是该公司宣布将于今年秋季发售的仅支持音频的眼镜,而是同时提供音频和视觉体验的版本。

    这些Android XR眼镜在去年的大会上首次公布,其镜片内置显示屏,可将实用信息叠加在真实世界之上,直接呈现在用户视野中。这包括可显示天气、步行导航、Uber接驾信息、实时翻译等内容的小组件,甚至是用户自己用AI设计的自定义小组件。

    谷歌Android XR AI眼镜
    谷歌Android XR AI眼镜 (来源:TechCrunch)

    prototypes已经相当成熟

    我们测试的眼镜仍然是非常早期的原型,但已经足够成熟,可以进行外部测试。演示XR眼镜的工作人员解释说,原型机让公司不必担心与不同款式、造型相关的外观设计细节,因此可以更自由地试验显示技术,以及它对电池续航的影响。

    这意味着这些样机在佩戴贴合度、造型、尺寸和设计细节方面,和任何未来发售的正式版本都会有很大不同。更像是可以在基础、舒适的镜框内对眼镜的”内部构造”进行试验。

    这款带显示屏的眼镜是今年晚些时候推出的第一代音频眼镜的下一步迭代产品。眼镜是与Warby Parker、Gentle Monster和三星合作开发的,将谷歌的技术与这些品牌的设计美学相结合。

    实际使用体验

    要激活Gemini,需要长按眼镜镜框右侧2秒,启动提示音会响起,告知用户Gemini已经开启并正在监听。在演示版本中,启动Gemini的同时也会启动摄像头,但正式发售版本将允许用户配置是否在启动Gemini时同时开启摄像头。

    在第一次测试中,我们要求Gemini播放一位我们喜爱的艺术家的音乐。由于场地太吵,无法评估音质,即使音乐开到最大音量,仍然很难清晰、有细节地听到。但从这次有限的体验来看,初步印象是这款眼镜无法替代更高质量的耳塞,但如果只是想在外面散步、徒步或在家做家务时听点音乐,它可以满足需求。

    要关闭音乐,只需轻敲镜框侧面中间的位置,就像敲击太阳穴一样。

    拍照和AI处理

    在第二次测试中,我们按下拍照按钮给一个人拍了照片。当时显示屏是关闭的,所以照片被传输到了我们的手机和手表上。(之后你可以通过长按来拍摄视频,但原型机暂不支持这个功能。如果是拍视频,你会看到视频缩略图预览,而不是照片。)

    你也可以直接让Gemini拍照,无需按拍照按钮,还可以对拍摄结果进行一些AI处理。比如你可以说”拍张照片,把这个人物变成动漫角色”。照片会先发送到手机,再发送到Gemini和Nano Banana服务器,之后返回编辑后的版本。

    在谷歌I/O的场地里,Wi-Fi负载很高,整个往返过程大约需要45秒。

    显示屏体验

    开启显示屏后,你会在视野中看到一个简单的主屏幕。演示版本预装了一些小组件,显示天气和谷歌I/O活动的倒计时。如果你是眼镜的主要使用者,也可以把谷歌地图、翻译等特定应用的快速启动器设置好。

    原型机只有右眼上方的单显示屏,但该平台同时支持单显示、双显示以及仅音频的眼镜模式。显示屏的图像有点模糊,我们认为这和我们佩戴的处方隐形眼镜有关——我们一只眼睛的镜片是优化远距离视物的,另一只优化近距离视物。当我们闭上一只眼睛时,图像会更清晰,但这种体验几乎立刻就让我们右眼上方产生了视疲劳。


    翻译功能表现突出

    最出色的演示之一是眼镜的语言翻译功能,它依托手机上的谷歌翻译应用。一位演示人员语速很快地说西班牙语,眼镜自动检测到了语言,并在显示屏上显示英语翻译文本,同时Gemini会在我们耳边用英语说出来。

    我们认为很多出境旅行者会为了这个功能购买这款眼镜。需要指出的是,仅音频的眼镜也支持翻译功能,只是不会在眼镜上显示文本,如果需要的话,你可以在手机上看到转录文本,同时还有实时音频反馈。

    导航体验不挡视线

    另一个演示是使用眼镜导航。你可以通过要求Gemini导航到某个目的地来启动谷歌地图体验——甚至可以模糊到比如”最近的咖啡店”这样的指令。

    Gemini会激活手机上的谷歌地图,在体验加载的短暂延迟后,眼镜会显示转向导航信息。当你向前看时,会显示下一个转向的信息。但如果你需要在空间中定位,低头看地面就能看到地图上的蓝色圆点。你也可以左右转动身体来在空间中旋转,就像你在手机上调整蓝色圆点的方向一样。

    然后当你再抬头时,可以继续行走,地图不会挡住你的视线。因为这个体验是和手机上的谷歌地图绑定的,所以”家””公司”等已保存的目的地已经可以直接使用。

    物体识别还需优化

    我们还短暂地用眼镜识别视野中的各种物体,并向它提问。眼镜最初很难识别我们面前架子上的莫奈画作复制品,这是因为原型机没有自动开启摄像头——必须从应用中手动开启。

    不过即使我们凑近去聚焦画布左下方的莫奈签名,Gemini还是问了几个问题之后才说它看起来像莫奈的作品。其他测试更顺畅,眼镜立刻识别了架子上的植物,还回答了关于书上不同食谱的问题。


    后续规划和市场背景

    谷歌表示,今年晚些时候它会分享更多关于Android XR显示眼镜的信息,届时它会扩大其可信测试者计划。

    与此同时,该公司认为音频功能已经可以满足部分用户的需求,这可能是面对Meta和Snap在该领域的竞争,它还没有准备好显示眼镜的巧妙说法。

    和显示版本一样,仅音频眼镜也可以访问谷歌的Gemini AI,你可以通过眼镜的镜框扬声器私密收听。你可以通过眼镜听音乐、按按钮拍照、打电话,或者访问手机应用,这些功能和未来的显示版本一样。

  • 我试了亚马逊的Bee可穿戴设备,感兴趣但有点发毛

    最近我上手试了下Bee,这是亚马逊去年收购的那款AI腕带设备,今年又推了好几轮功能更新。和它宣传的一样,这东西定位就是个”全天候个人助理”:录你一整天的对话、自动转录、生成总结,还能和日历同步之后给你发提醒。

    用法倒不复杂——开机、戴上、和手机App配对、填点基本信息就能跑起来。Bee自带录音按键,绿灯闪就是在录,再按一下就停,录完之后App会自动生成一段易读的总结,完整的转录文本也在里面。

    亚马逊Bee可穿戴设备
    Bee AI可穿戴设备实拍图 (来源:TechCrunch)

    职场场景确实好用

    我专门拿它测了一次商务通话(当然事先征得了对方同意),录完之后App给出的总结相当到位,把对话拆成了几个板块,之后不用重听整段录音就能回顾内容。

    这个功能本身没什么稀奇,Otter、Granola这些工具也能做转录和自动总结,体验上差别不大。但你可以想象,一个整天在不同会议之间辗转的职场人,确实会很需要这种设备——Bee可以一整天都开着,之后随时回顾总结,确认自己没漏掉任何关键内容。

    Bee在工作场景下的表现相当扎实,如果你的一天被各种会议填满,又很难捋清所有内容,它会是个还算称职的助理。

    转录准确度还有提升空间

    Bee生成的对话总结做得不错,但原始转录文本偶尔会有点乱。之前的评测也提到,你通常需要手动输入其他说话人的名字,因为Bee不一定能识别谁在说话。我这次测试中也发现它遗漏了部分聊天内容——倒不是什么重要信息,但确实不是百分之百完整的记录。

    我还带着Bee去参加了每周两次的朋友电影之夜,让它整晚都保持运行。我们当时在看《落水狗》,我还有点担心设备会把所有粗俗的暴力场面当成真实的流血事件、触发什么内部警报。不过Bee基本清楚发生了什么:它识别出我们在看电影,在之后的事件总结里,把这段对话标注为”塔伦蒂诺电影场景分析”。

    隐私问题没法绕开

    对我来说,问题核心在于:我算是个隐私爱好者。在普通人已经被无处不在的数字监控包围的当下,我很珍惜任何不被录制的机会,所以想到要24小时把个会偷听的gadget戴在手腕上,我本来是不太感兴趣的。

    但有点奇怪的是,Bee目前的营销定位很大程度上是面向个人使用的。要接受这点,你得愿意让Bee接触到你线下和数字生活的大部分内容。

    确实,要想好用,Bee需要获取广泛的手机权限,包括位置、照片、手机通讯录、日历和手机通知权限。你还可以和它共享健康数据——如果你出于某种原因想让它知道你的睡眠模式或者静息心率的话。

    Bee收集的大量数据都存在云端,这对数字隐私爱好者来说又带来了新的担忧。科技YouTuber Becca Farsace曾收到消息,Bee展示过完全本地运行的设备demo。如果这家公司真的能做出这样的设备,我会非常感兴趣,甚至会考虑买一台。不过到目前为止,亚马逊还没有公布这方面的进展。


    安全承诺和现实之间的落差

    至于Bee的数字隐私保护,公司表示会对用户数据进行加密,无论是静态存储还是传输过程中都受保护。在隐私政策中,公司表示已经”实施了技术和组织安全措施,旨在保护公司处理的所有个人信息的安保”。Bee还声称会接受”严格的第三方安全审计”,并采用持续的安全监控。

    这些听起来都很不错,不过值得注意的是,亚马逊和很多大型科技公司一样,偶尔也会出现一两个数据安全问题(对于一家管理着全球大量云环境的公司来说,这倒也不算意外,但依然值得关注)。

    简单来说,Bee是一款很有意思的硬件,如果经过一段时间的调整和优化,未来很可能在职场场景有很好的应用前景。但作为个人生活的数字助理,对部分用户来说,它可能还是有点太有侵入性了。