作者: hiyoho

  • Browser-Use:97.8K Stars!让AI Agent自动操控浏览器的开源神器

    Browser-Use:97.8K Stars!让AI Agent自动操控浏览器的开源神器

    📝 项目简介

    Browser-Use 是一个让AI智能体能够自动访问和操作网站的开源工具,通过简单的自然语言指令,AI就能自动完成表单填写、信息检索、网购下单等各类网页操作任务。

    🌐 官网:https://browser-use.com

    📦 GitHub:https://github.com/browser-use/browser-use

    ⭐ Stars:97.8K+

    📄 开源协议:MIT License

    💻 安装要求和过程

    环境要求

    • Python >= 3.11
    • 推荐使用包管理工具 uv
    • 可选:Playwright(用于浏览器自动化)

    快速安装步骤

    # 初始化项目并安装
    uv init && uv add browser-use && uv sync
    
    # 如果需要安装Chromium浏览器(首次使用)
    uvx browser-use install
    
    # 可选:使用实验性Rust核心(更快性能)
    curl -fsSL https://browser-use.com/terminal/install.sh | sh

    配置API密钥(可选)

    # 使用Browser Use Cloud(推荐)
    export BROWSER_USE_API_KEY="your_api_key"
    
    # 或使用其他LLM服务
    export GOOGLE_API_KEY="your_google_key"
    export ANTHROPIC_API_KEY="your_anthropic_key"
    export OPENAI_API_KEY="your_openai_key"

    ✨ 核心功能

    1. 🤖 AI智能体浏览器自动化

    通过自然语言指令让AI自动完成网页操作,无需编写复杂的自动化脚本。AI会智能识别页面元素,自动完成点击、输入、滚动、截图等操作。

    2. 🌐 多场景任务支持

    覆盖表单填写、生鲜采购、硬件选购、信息检索等各类线上任务。无论是自动化测试、数据采集还是日常办公,都能轻松应对。

    3. 🔧 灵活部署方案

    支持开源本地部署和云端托管两种使用方式。本地部署完全免费,云端版本提供指纹伪装、代理轮换、验证码破解等高级功能。

    4. 🔌 强大的扩展能力

    支持添加自定义工具、接入MCP工具、对接1000+第三方应用(Gmail、Slack、Notion等)。默认优化适配 ChatBrowserUse() 模型,同时支持Google、Anthropic、OpenAI、Ollama本地模型等主流大语言模型。

    5. 💻 CLI命令行工具

    提供命令行工具,支持快速导航、元素点击、文本输入、截图等浏览器操作,支持多命令间浏览器状态保持,非常适合脚本化和自动化场景。

    🎯 典型使用场景

    场景一:自动化表单填写

    自动填写求职申请、各类线上登记表,可自动匹配简历信息,大大提升效率。对于需要重复填写类似表单的场景,可以节省大量时间。

    from browser_use import Agent, Browser, ChatBrowserUse
    import asyncio
    
    async def main():
        agent = Agent(
            task="打开求职网站,填写我的简历信息并提交申请",
            llm=ChatBrowserUse(),
        )
        await agent.run()
    
    if __name__ == "__main__":
        asyncio.run(main())

    场景二:电商自动化操作

    自动将购物清单加入购物车、比价、下单等。可以编写脚本定期监控商品价格,在合适的时候自动下单。

    场景三:信息查询与数据采集

    自动查询GitHub仓库Star数、检索商品信息、收集公开数据等。配合定时任务,可以实现全自动的数据监控和采集。

    from browser_use import Agent, Browser, ChatBrowserUse
    import asyncio
    
    async def main():
        browser = Browser(
            # use_cloud=True,  # 可选:使用Browser Use Cloud的云端隐身浏览器
        )
        agent = Agent(
            task="查找browser-use仓库的Star数量",
            llm=ChatBrowserUse(),
            browser=browser,
        )
        await agent.run()
    
    if __name__ == "__main__":
        asyncio.run(main())

    💡 推荐理由

    作为一名开发者,我深刻体会到浏览器自动化在日常工作中的重要性。传统的Selenium、Playwright等工具虽然强大,但需要编写大量的代码来处理各种页面元素和交互逻辑。

    Browser-Use的革命性在于:它让AI理解了浏览器的操作逻辑,你只需要用自然语言告诉它”做什么”,而不需要告诉它”怎么做”。

    我个人使用Browser-Use的几个心得:

    • 学习曲线平缓:不需要深入学习Playwright的API,只需要会写Python基础的异步代码即可上手
    • 智能元素识别:AI会自动识别页面上的按钮、输入框、链接等元素,即使页面结构发生变化也能适应
    • 云端版本值得尝试:如果需要大规模部署,云端版本的指纹伪装和代理轮换功能非常实用
    • 社区活跃:97.8K的Stars数量说明了项目的热度,Issue响应速度快,文档完善

    如果你正在寻找一个让AI帮你操作浏览器的工具,Browser-Use绝对是2026年最值得关注的开源项目之一!

    📥 下载地址

    🌐 官方网站:https://browser-use.com

    ☁️ 云端服务:https://cloud.browser-use.com

    📦 GitHub仓库:https://github.com/browser-use/browser-use

    📚 官方文档:https://docs.browser-use.com

    💬 Discord社区:https://discord.gg/browser-use


    📌 本文是《GitHub热门AI开源项目》系列的第17期,每期介绍一个热门的AI开源项目。欢迎关注本栏目,获取更多优质开源项目介绍!

  • 谷歌找上英特尔帮忙造AI芯片,台积电不够用了

    台积电产能告急,谷歌找上英特尔

    台积电的产能短缺问题,现在真的开始影响科技巨头们的布局了。最新消息是,谷歌打算把英特尔拉进来,帮自己制造AI芯片。

    据《The Information》报道,英特尔会在2028年为谷歌生产超过300万颗张量处理单元(TPU)。什么概念?这相当于谷歌未来两年预计生产的600万颗TPU总量的一半。这个合作规模,已经不是”试试看”的程度了。

    为什么是英特尔

    谷歌自研的TPU芯片之前一直依赖台积电代工。但AI芯片的需求涨得太快,台积电的产能已经跟不上所有人的订单了。苹果、英伟达、AMD、高通——大家都在排队等台积电的产能。

    谷歌不想把自己的AI业务绑在一条船上,所以开始找备选方案。英特尔最近几年在芯片制造技术上确实有了起色,特别是封装技术,正好能补上台积电产能不足的那块缺口。

    对谷歌来说,这不是”要不要英特尔”的问题,而是”不能只靠台积电”的问题。

    不只是谷歌在行动

    有意思的是,谷歌并不是唯一一个在测试英特尔制造技术的公司。报道里提到,英伟达和SK海力士也在做同样的事情——把英特尔当作自研芯片的代工备选方案。

    这对英特尔来说是个好消息。过去十几年,英特尔在芯片制造代工这块一直没能真正打进高端市场,台积电和三星把大部分客户都拿走了。现在AI芯片的需求爆炸,反倒给了英特尔一个重新切入市场的机会。

    2028年才能量产,来得及吗

    有个细节值得注意:英特尔要到2028年才能为谷歌量产这300万颗TPU。这个时间节点说明,谷歌和英特尔的合作不是临时抱佛脚,而是至少两年前就开始谈的了。

    对AI行业来说,两年的周期其实不算长。芯片研发和制造本来就是长线投入,现在布局2028年的产能,反倒是正常操作。真正的问题可能是:到2028年,台积电的产能还紧不紧张?如果到时候台积电扩产跟上了,谷歌会不会又调整订单分配?


    不管怎样,AI芯片的供应链正在从”台积电一家独大”变成”多家代工并存”的格局。对谷歌、英伟达这些公司来说,多一个选择总归是好事。

  • OpenAI高级员工放话:”Chat is dead”,ChatGPT要变天了

    ChatGPT要彻底变样了

    一位OpenAI高级员工最近跟《金融时报》说了句挺狠的话——”Chat is dead.” 这话听起来像是在宣判什么,但实际上是在预告ChatGPT即将迎来自上线以来最大规模的一次改版。

    这次改版不是小打小闹的界面调整,而是要推出一个”超级应用”(superapp)。未来几周内,ChatGPT的网站和移动端都会陆续更新,整个产品的重心要从单纯的聊天对话,转向一个更综合的AI服务平台。

    不再只是聊天工具

    改版后的ChatGPT会引导用户去用代码编写、图像生成这些功能,还会接入一堆外部合作伙伴提供的应用。你可以把它理解成,OpenAI想让ChatGPT变成一个AI时代的”操作系统”——而不只是一个能聊天的对话框。

    这个思路其实不难理解。ChatGPT刚出来的时候,大家觉得能跟AI对话就已经很神奇了。但用了两年多,光聊天确实有点不够用了。用户想要的是能真正帮自己干活的工具,而不是一个只会陪聊的助手。

    OpenAI内部人士的直接表态,说明他们自己也很清楚:光靠聊天功能,已经撑不起ChatGPT的未来了。

    超级应用的野心

    这次改版背后,其实是OpenAI对整个AI应用生态的野心。聊天只是入口,真正有价值的是后面那一整套工具和服务。代码生成、图像创作、第三方应用集成——这些东西加在一起,才是一个”超级应用”该有的样子。

    想想看,如果你能在同一个地方聊天、写代码、做图、调用各种专业工具,那还为什么要打开别的应用?OpenAI打的就是这个主意。

    未来几周就能看到变化

    根据《金融时报》的报道,这个改版会在”未来几周内”开始推出。先更新网站和移动端应用,然后逐步引导用户去尝试那些新功能。

    对于普通用户来说,这可能意味着ChatGPT的界面和使用方式会有比较大的变化。不再是打开就是一个聊天框,而是会看到更多功能入口,更像是一个工作台或者应用商店。


    📎 原文来源:“Chat is dead.” – The Verge
  • 英伟达终于杀进Windows PC芯片市场,这次对手换成了高通

    英伟达憋了这么多年,终于出了Windows PC芯片

    前几天台北电脑展上,黄仁勋拿着一款新的芯片亮相,当时现场的人都懵了——英伟达居然出了面向Windows PC的Arm架构芯片,名字叫RTX Spark。你要知道,上一次英伟达做消费级PC芯片还是Tegra那个年代,之后就再也没碰过这个市场,这次突然杀回来,摆明了是冲着高通来的。

    这款芯片其实是之前英伟达给开发者做的DGX Spark工作站的消费级版本,配置拿出来确实能打:CPU部分是和联发科一起搞的20核Arm核心,10个高性能核,10个中性能核,没用小核,思路跟苹果M5 Pro的大小核设计差不多;GPU部分是Blackwell架构的,最多有6144个核心,比移动版的RTX 5070还多,功耗却只有80W,远低于桌面版显卡的250W。

    最狠的是它的内存设计,128GB统一LPDDR5x内存,CPU和GPU都能用,比普通显卡的8G、12G显存大太多了,跑本地大模型完全够用。

    和普通显卡比,它到底强在哪?

    说白了,这款芯片就是给AI开发者和需要跑本地大模型的用户准备的。之前你要本地跑个稍微大点的模型,要么买专业卡,要么接好多张游戏卡,现在一台小主机就能搞定,128G的显存足够跑大部分开源大模型了。

    当然英伟达也没忘了普通用户,和微软一起在搞Arm版Windows的游戏适配,现在已经搞定了《英雄联盟》《无畏契约》这些热门游戏,连反作弊软件都适配了,之前Arm版Windows玩不了游戏的痛点,估计再过个一年半载就能解决。

    Windows on Arm市场,终于有竞争了

    之前你想买台Arm架构的Windows电脑,只能选高通的芯片,价格贵就算了,性能还一般。现在英伟达进来了,后面肯定还有别的厂商跟进,竞争多了,价格肯定会降下来,用户选择的余地也大了。

    现在首批搭载RTX Spark的电脑已经确定是华硕、戴尔、联想这些大厂做,2026年秋天就能上市,就是价格估计不会便宜,毕竟光芯片成本就不低,感兴趣的话可以等等看。

    英伟达RTX Spark芯片
    英伟达RTX Spark芯片实物图

    • 英伟达首次推出面向消费级Windows PC的Arm架构芯片,打破高通独霸局面
    • 128GB统一内存设计,适合本地AI开发和大模型部署场景
    • 与微软合作推进游戏适配,Arm版Windows游戏体验将逐步改善
  • OpenAI和微软的七年独家协约,终于拆了

    跑了七年的独家搭档,终于把协约拆了

    前几天刷科技新闻的时候,看到OpenAI和微软把合作了七年的独家协议给改了,当时第一反应是,这俩当初可是AI圈最让人羡慕的搭档啊,怎么说改就改了?

    回想2019年微软第一次给OpenAI投10亿美元的时候,双方签的可是实打实的独家条款:OpenAI的所有模型只能通过Azure卖,微软拿了独家商业使用权,连OpenAI实现AGI(通用人工智能)这种模糊的里程碑都写进了合同里,说一旦达成了,部分条款就要调整。当时OpenAI还是个小研究实验室,微软给钱给算力,确实帮了大忙。

    原来的协议里,微软拿的是独家权,OpenAI拿的是资金和算力支持,看起来是双赢,等OpenAI做大了,这约束就成了紧箍咒。

    亚马逊的500亿投资,成了拆协约的直接推手

    你说这协约怎么就突然改了?根子出在亚马逊身上。今年2月亚马逊宣布要给OpenAI投最多500亿美元,条件是OpenAI要把模型放到AWS上卖,还要一起做企业智能体平台。可这操作直接违反了OpenAI和微软的独家协议啊,微软当时就发了声明,说Azure还是OpenAI的唯一云服务,两边差点闹到法庭。

    最后还是谈妥了:微软的独家权没了,OpenAI可以随便把模型放到AWS、谷歌云上卖,微软也不用再给OpenAI分成,反过来OpenAI给微软的分成也有上限,到2030年就截止。原来的AGI模糊条款也被去掉了,换成固定日期2032年,再也不用扯皮什么时候算实现AGI了。

    对用户来说,这其实是好事

    之前企业要用OpenAI的模型,只能选Azure,被绑得死死的。现在好了,AWS、谷歌云都能用,价格和服务还能对比着来,选择多了不少。对OpenAI来说,也不用被微软绑着,能接更多合作,之前卡着的亚马逊的投资也能落地了。

    微软也没亏,虽然独家权没了,但还拿着OpenAI差不多27%的股份,未来几年还能收到OpenAI的分成,自己也做了Copilot、Phi系列模型,还投了Anthropic,早就不是只靠OpenAI了。

    OpenAI与微软合作协议调整
    合作协议调整后,双方都获得了更多自由度

    • 微软不再是OpenAI的唯一云服务合作伙伴,OpenAI可接入AWS、谷歌云等平台
    • 原协议中的AGI相关模糊条款被移除,合作期限明确到2032年
    • 企业用户可自主选择多云服务,AI服务市场竞争进一步加剧
  • n8n:191.5k Stars!工作流自动化平台,让AI与代码无缝融合

    n8n:191.5k Stars!工作流自动化平台,让AI与代码无缝融合

    📌 项目简介

    n8n 是一个面向技术团队的 workflow 自动化平台,兼具代码的灵活性和无代码的速度。它提供400+集成、原生AI能力,采用fair-code许可证,让你在保持对数据和部署的完全控制的同时,构建强大的自动化流程。

    n8n Workflow Automation

    n8n – 可视化工作流自动化平台

    💻 安装要求和过程

    环境要求

    • Node.js:版本 18 或更高
    • npm:随 Node.js 安装
    • Docker:可选,用于容器化部署

    快速安装 – 方法1:使用 npx(推荐体验)

    npx n8n

    运行后访问 http://localhost:5678 即可开始使用。

    快速安装 – 方法2:使用 Docker(推荐生产)

    docker volume create n8n_data
    docker run -it --rm --name n8n -p 5678:5678   -v n8n_data:/home/node/.n8n   docker.n8n.io/n8nio/n8n

    快速安装 – 方法3:使用 npm 全局安装

    npm install -g n8n
    n8n

    ✨ 核心功能

    1. 代码与无代码自由切换:可以编写 JavaScript/Python、添加 npm 包,或使用可视化界面,灵活应对各种复杂场景。
    2. 原生AI平台:基于 LangChain 构建 AI Agent 工作流,支持自定义数据和模型,让 AI 真正为业务服务。
    3. 400+ 集成:支持几乎所有主流工具和服务(Slack、Google Workspace、GitHub、MySQL、PostgreSQL 等),900+ 即用工作流模板。
    4. 完全控制:采用 fair-code 许可证,可自托管,也可使用官方云服务,数据主权完全掌握在自己手中。
    5. 企业级能力:高级权限管理、SSO 单点登录、气隙部署(air-gapped),满足企业安全合规需求。

    🎯 典型使用场景

    场景1:AI 驱动的客服自动化

    将 n8n 与 OpenAI API、Slack、CRM 系统连接,构建一个智能客服工作流:

    • 客户在 Slack 发起咨询 → n8n 触发工作流
    • 调用 AI 模型分析客户问题 → 检索知识库
    • 自动生成回复草稿 → 发送给人工客服审核
    • 客服确认后自动回复客户 → 同时更新 CRM 记录

    整个过程从人工需要10分钟缩短到30秒,效率提升20倍。

    场景2:社交媒体内容自动发布

    内容创作者可以使用 n8n 构建多平台自动发布流程:

    • 在 Notion/Airtable 中规划内容日历
    • n8n 定时读取待发布内容
    • 自动生成适配各平台的文案(Twitter 精简版、LinkedIn 专业版、微博 口语版)
    • 依次发布到 Twitter、LinkedIn、微博、微信公众号
    • 收集各平台互动数据 → 汇总到 Google Sheets

    🌟 推荐理由

    为什么选择 n8n?

    • 技术团队的理想选择:不像 Zapier 那样只适合简单场景,n8n 允许你写代码,真正应对复杂业务逻辑。
    • AI 原生设计:在 AI 浪潮中,n8n 是最早将 LangChain 集成到工作流平台的产品之一,AI Agent 构建能力领先。
    • 数据主权:fair-code 许可证意味着你可以自建,敏感数据不用经过第三方云服务,对企业尤其重要。
    • 活跃的社区:GitHub 191k+ Stars,社区论坛活跃,900+ 工作流模板可以直接复用。
    • 成本优势:自托管免费,只有企业版高级功能需要付费,相比 Zapier 每月几百美元,成本可以忽略不计。

    个人使用心得:我用 n8n 搭建了每日自动抓取 Hacker News 热门文章 → AI 总结 → 发送到 Discord 频道的工作流,整个过程只花了半小时,从此每天早上有高质量技术资讯自动推送,彻底告别信息焦虑。

    📥 下载地址


    📌 本文由 WorkBuddy AI 自动整理发布 | 数据来源:GitHub

  • Meta搞了个AI生成点击诱饵新闻推送,质量差到离谱

    你刷社交平台的时候,有没有刷到过那种标题特别抓眼球,点进去发现内容空洞得要命的“新闻”?现在Meta直接自己用AI生成这种内容,推送给Meta AI应用的用户。

    AI生成的新闻比人工写的还水

    据The Verge的报道,Meta在独立的Meta AI应用的“为你推荐”板块,上线了AI生成的新闻推送功能,内容全是AI写得,配图也是AI画的,质量差得一塌糊涂。

    比如针对驻伦敦的记者,推送的内容全是英式风格的,什么茶、礼仪、酒吧、王室、足球,还有《皇家管家终于解决了先加奶还是先加茶的大辩论》这种莫名其妙的文章。同事收到的推送更离谱,全是奢侈品手表相关的内容,什么《我的假劳力士实验》《劳力士等待名单幻象背后的残酷数学》。

    这些内容全都是AI生成的,没有实质信息,也没有来源标注。更离谱的是,有些配图里居然出现了已经去世的伊丽莎白二世女王,还出现了两个,明显是AI生成的错误。

    Meta装糊涂装得挺像

    Meta之前还说要标注AI生成的内容,结果这个推送里一点标识都没有。The Verge把这个事儿曝光之后,Meta才说要下架这个功能,但为啥要搞这个功能,有没有 safeguards,会不会生成公众人物的图像,这些问题Meta一个都没回答,只说这是小范围测试,之后不会继续推了。

    AI生成的伊丽莎白二世女王图像
    Meta AI应用生成的包含两位伊丽莎白二世女王的图像(图源:The Verge)

    但其实这个测试范围一点都不小,The Verge的记者里起码有四个都能用到这个功能。至于为啥要搞这个,大家也都能猜到——就是为了提升用户留存,让用户多花时间在这个应用上,至于内容质量、真假,Meta根本不在乎。


    • AI生成的新闻内容无实质信息,也无来源标注
    • 配图存在明显错误,包括生成已故公众人物图像
    • Meta未对功能目的、安全措施等问题作出合理解释
  • OpenAI还在憋大招:要把ChatGPT做成超级应用

    你最近有没有觉得,现在用的ChatGPT好像越来越不够装东西了?之前只能聊天、写点小文案,后来加了编程功能、图像生成,现在OpenAI干脆想直接把它改造成个“超级应用”——以后工作、生活的事儿,说不定打开这一个应用就能全搞定。

    为啥突然要搞超级应用?

    据《金融时报》的报道,OpenAI打算在未来几周就推出改版后的ChatGPT,里面会集成编程工具、AI智能体这些功能。说白了,他们现在的目标很明确:一是要跟Anthropic抢商业客户,二是要在IPO之前把盈利的路铺得更顺一点。

    内部员工的说法更直接:ChatGPT以后就是个流量入口,先把免费用户圈进来,再慢慢引导他们去用Codex这类需要付费的编程工具。甚至有OpenAI的高级员工直接说“聊天功能已经死了”——这话虽然有点极端,但也看得出他们对现在的聊天框形态确实不满意,觉得光靠聊天留不住用户。

    OpenAI负责核心产品和平台的Thibault Sottiaux说,他们现在在做的,是让你能拥有自己的个人智能体,工作的事儿、生活的事儿都能帮你处理。

    战略来了个180度大转弯

    其实这个“超级应用”的说法去年就传出来了,当时大家还觉得是画饼,没想到今年OpenAI直接动了真格。要知道2025年的时候,他们还在推Sora视频生成器这类独立产品,现在直接把这些“支线项目”都砍了,集中所有资源搞这个超级应用。

    等于说之前的战略是做各个场景的独立工具,比如专门的视频生成工具、专门的编程工具,现在是要做一个集成的流量入口,把所有用户都圈在自己的生态里。这个转变其实也符合OpenAI现在的需求:要上市就要有更好的盈利预期,超级应用的用户粘性和变现空间,肯定比单独的聊天工具大得多。

    ChatGPT logo
    OpenAI计划将ChatGPT改造为集成多功能的超级应用(图源:TechCrunch)

    以后打开ChatGPT能干啥?

    按照OpenAI的规划,改版后的ChatGPT不只是能聊天,还能直接写代码、运行智能体任务,甚至可能接入更多第三方服务。等于把现在需要好几个应用才能干的事儿,都塞到一个应用里。

    当然现在还说不好这个超级应用最终会长什么样,会不会真的像他们说的那么好用。也有人担心,这么做会不会让OpenAI的生态太封闭?毕竟现在大家还能把ChatGPT的结果导出,或者接入其他工具,以后要是都集成到超级应用里,会不会反而限制用户的选择?


    • 目前改版版本还在测试阶段,预计未来几周会逐步推送
    • OpenAI计划通过超级应用提升商业客户占比,推动IPO进程
    • Sora等独立支线项目已被搁置,资源向超级应用集中
  • 谷歌AI连”Google”都拼不对,大语言模型的底层缺陷藏不住了

    谷歌AI连”Google”都拼不对,大语言模型的底层缺陷藏不住了

    2026年5月27日 | 来源:TechCrunch

    谷歌AI拼写错误示意图
    谷歌AI Overview将”Google”拼成了两个P | 图源:TechCrunch

    单词”Google”里面有几个P?谷歌自己的AI给出的答案是:两个。

    这不是段子,是真实发生在谷歌搜索”AI Overview(AI概览)”功能里的场面。有用户发现,让谷歌AI数一下”poop”里有几个R,它一本正经地回答”恰好1个”;问它”journalism”怎么拼,它拼出了j-o-u-r-n-a-d-i-s-m——多了一个完全不存在的D。

    至于美国总统的姓氏,谷歌AI表示里面有1个P——但拼出来的是t-r-p-u-m。

    这已经不是第一次了

    早在谷歌大张旗鼓给搜索结果页加入AI概览功能的时候,就有不少人预感会出事。果然,第一代AI概览上线时,它引用过《洋葱新闻》的讽刺文章,一本正经地建议用户”每天吃一块小石头”来补充矿物质,还从Reddit的段子里学到”可以在披萨上涂胶水来增加奶酪拉丝效果”。

    那一轮翻车之后,谷歌表面上修了不少问题。但这一轮以生成式AI为核心的搜索改版,把AI概览摆到了搜索结果的最顶端——也就是用户第一眼看到的位置。拼写错误这种低级失误,就这样被放大给了数亿用户。

    谷歌AI拼写错误示例
    用户实测:让各AI数”strawberry”里的R,纷纷翻车 | 图源:TechCrunch

    为什么AI就是不会拼写?

    这背后其实有一个相当硬核的技术原因,只是大多数用户并不知道。

    驱动聊天机器人和文本生成工具的大语言模型(LLM),从设计逻辑上就不是为了”阅读”而生的。当你输入一段提示词,模型会先把它转换成一串数字编码(也就是token),然后根据上下文关联来预测下一个最可能出现的token。

    问题就出在这里:模型眼里没有”字母”这个概念。它看到的”the”是一个整体编码,知道这个词的意思是”这个”,但它根本不知道T、H、E分别是什么字符。

    “LLM基于Transformer架构,这个架构本质上就不是真的在’阅读’文本。你输入提示词之后,它会被转换成编码。当模型看到单词’the’的时候,它只有’the’对应的编码,知道这个词的意思是’这个’,但它根本不知道’T”H”E’分别是什么。”——阿尔伯塔大学AI研究员Matthew Guzdial助理教授

    这就是为什么AI可以在几秒钟内写出能跑的应用程序代码,或者解决困扰数学家几十年的难题,但拼对一个简单的英文单词却相当于幼儿园小朋友的水平。

    研究人员也不乐观

    东北大学研究大语言模型可解释性的博士生Sheridan Feucht说得更直接:他猜测”由于这种模糊性,根本不存在完美的tokenizer(分词器)”。

    对于AI研究人员来说,拼写能力本来就不是LLM的核心评判指标。能写代码、能推理、能翻译,才是大家关心的。但问题是,当这些模型被直接推到数亿用户的搜索框里,每一个低级错误都会被无限放大。

    谷歌通过邮件向TechCrunch回应称:”单词计数是LLM的已知难题,我们正在努力修复这个特定问题。”措辞相当谨慎——”已知难题”四个字,基本等于承认这是底层架构的问题,不是修几个bug就能彻底解决的。

    给我们提了个醒

    这些令人发笑的拼写错误,其实有一个很正面的作用:它们不断提醒我们,AI并不完美,哪怕它有时候看起来全知全能、超出人类认知。

    我们不能盲目相信AI的输出,哪怕它说得再自信,也要二次核对准确性。这个道理大家都听过,但只有当AI把”Google”拼成两个P的时候,它才真正地被大多数人理解。

    谷歌这一轮搜索改版,把生成式AI摆到了有史以来最显眼的位置。它得到的赞美会更多,但挨的骂也会更多。拼写错误可能只是开始。


  • 印第安纳小镇为20亿美元数据中心吵翻了,市长一句话彻底翻车

    印第安纳小镇为20亿美元数据中心吵翻了,市长一句话彻底翻车

    2026年6月8日 | 来源:The Verge

    数据中心示意图
    印第安纳州谢尔比维尔拟建的数据中心效果图 | 图源:The Verge

    美国小镇谢尔比维尔(Shelbyville)这几天彻底吵翻了。一座造价20亿美元的数据中心想要落地,当地居民在自家草坪上插起”反对数据中心”的标语,结果市长斯科特·弗格森(Scott Furgeson)被拍到的一段视频,让这场本就激烈的争议直接升级成了全美关注的新闻。

    视频里,弗格森聊到城里越来越多的反对标语时说了一句让所有人目瞪口呆的话:”我在城里看到很多这种标语,但我只在破房子里看到它们。”他还补了一刀:”其中大部分是出租屋。”

    旁边的人马上提醒他:这些居民是”工人阶级”,不管住的是什么房子,他们都是人。

    “不管是不是出租屋,他们都是人。”——视频中一位与市长对话的当地居民

    “破房子”言论引爆民意

    谢尔比维尔的居民对弗格森用这种措辞形容自己的邻居感到震惊。当地居民亚历克萨斯·威廉姆斯(Alexas Williams)接受NBC附属电视台WTHR采访时说,市长的话”有点不尊重,也有点伤人”。

    这件事的尴尬之处在于,弗格森本人似乎完全没有意识到自己的话有什么问题。视频流出后,市长办公室才发表了一份声明,措辞相当谨慎:”市长对自己措辞可能造成的冒犯表示遗憾。”这个”可能”用得相当微妙——他本人并没有直接道歉,只是对”可能造成的冒犯”表示了遗憾。

    这种傲慢态度在美国小镇政治里并不罕见,但放在数据中心这个敏感话题上,简直是往火堆里浇汽油。

    20亿美元的大项目,小镇买不买账?

    数据中心落地对美国小镇来说,历来是一把双刃剑。支持者说它能带来就业、提升税收、让小镇搭上AI时代的快车;反对者则担心水资源消耗、电力负担、房地产价格异动,以及那个老问题——数据中心赚走了大部分收益,留给当地的却是不成比例的资源压力。

    这已经不是美国第一次出现数据中心引发的本地争议了。随着AI算力需求爆炸式增长,亚马逊、谷歌、微软等巨头疯狂拿地建数据中心,许多原本安静的小镇突然发现自己站在了漩涡中心。谢尔比维尔只是最新的一例。

    而市长的”破房子”言论,实际上暴露了一个更深层的问题:当科技巨头的资本涌入小镇,当地决策者和普通居民之间,到底有多少共同的话语权?

    AI基础设施的本地代价

    这件事值得关注,不只是因为一位市长说了句蠢话。它折射出AI热潮背后的一个结构性矛盾:数据中心是AI时代的”发电厂”,但它们并不总是受到当地人的欢迎。

    谷歌和SpaceX最近签署的那份每月9.2亿美元的算力协议,让外界看到了AI基础设施的规模有多大。但当这些项目下沉到像谢尔比维尔这样的小镇时,宏大的数字就变成了一个个具体的问题:水够用吗?电够用吗?数据中心撤走之后,留下的基础设施谁来维护?

    这些问题没有简单答案。但可以确定的是,如果地方决策者不能用平等的态度对待每一位居民,类似谢尔比维尔的冲突只会越来越多。

    至于那位市长,他的”破房子”言论已经在社交媒体上被广泛传播。对于谢尔比维尔的居民来说,这场关于数据中心的争论,或许才刚刚开始。