博客

  • 互联网正在为机器重构,人类流量迟早被反超




    互联网正在为机器重构,人类流量迟早被反超

    过去几十年,云计算基础设施都是围绕「人类行为」设计的:人搜索、点击、滚动、播放,节奏稳定且可预测。但AI代理的行为完全不同——它们能在几秒钟内同时启动多个子代理,查询数百个数据库、搜索文档、调用API,然后像出现时一样迅速消失。

    在这种认知下,亚马逊正在重新设计其核心云基础设施的一块关键拼图。

    AI agents conceptual illustration
    AI代理正在重塑互联网基础设施的设计逻辑。图片来源:akinbostanci / Getty Images

    AWS悄悄上线了一件大事

    本周四,AWS发布了新一代OpenSearch Serverless——这是一个完全托管的搜索和向量数据库,本质是一个大规模存储和检索信息的系统——而它的设计目标非常明确:专门为AI代理工作负载打造。

    AWS表示,这个新系统能在代理触发任务时瞬间扩展,在代理闲置时缩回到零。这套逻辑听起来简单,但对原本为人类设计的架构来说,是一次根本性重构。

    「代理正从实验阶段走向生产环境,它们产生的流量模式是此前的基础设施根本没有为之设计过的。」——Tia White,Amazon OpenSearch Service 总经理

    人类的互联网,机器的用法

    这个发布背后,是整个科技行业逐渐意识到一个问题:为人类驱动的互联网而设计的基础设施,在越来越多代理存在的世界里,其实并不好用。

    目前AI代理在互联网活动中的占比还相对较小,但机器生成的流量已经相当可观,而且还在持续增长。Cloudflare的数据显示,过去六个月里,机器人流量占整体HTTP流量的31%。其中,AI爬虫、搜索引擎和助手约占所有机器人请求的四分之一。

    Cloudflare高级产品经理Lai Yi Ohlsen对TechCrunch说了一句很直接的话:

    「非人类流量将在2027年上半年某个时间点超过人类流量。」


    谷歌也押注了代理

    上周的谷歌I/O开发者大会上,谷歌宣布用户将能够把购物研究、行程预订、网页浏览、应用交互等任务委托给AI系统。但这件事的影响远不止消费级AI助手。

    企业正在越来越多地内部部署代理,同时也让代理面向自己的客户运行,在幕后创造出全新类型的机器生成流量。

    结果是,云服务商和基础设施公司一直在思考一个问题:如何把为人类设计的系统,改造为能够适应代理持续自主检索信息、调用工具、生成机器对机器流量的世界。

    这正是AWS新版OpenSearch Serverless想要解决的问题。

    技术关键:把计算和存储拆开

    这一代产品最核心的技术变化,是把计算层与存储层解耦。计算资源可以在几秒钟内扩展,以容纳代理流量的突发高峰,也可以缩回到零,这样客户在代理闲置时就不用付钱。

    White用一个比喻来解释之前的困境:就像你一直为一个停车位付钱,哪怕你根本没在用它。而升级后的Serverless版本更像是按计时器付费的停车位。

    「之前,哪怕是我们上一代的Serverless版本,你也至少得让一个实例在运行,因为存储和计算是耦合在一起的。你没法按照你需要的速率自动启动(计算),所以你总是要为你的工作负载预留闲置的计算资源,不管你用没用。」White说。


    整个云行业都在跟进

    这种转变正在整个云计算行业同步发生。Databricks和Snowflake正在把自己重新定位为企业数据的AI记忆和检索系统。微软已经推出了针对Azure的更新,专门用来处理AI代理的流量突发,并在代理之间共享记忆。Cloudflare在类似的逻辑下,上个月也推出了旨在为代理提供持久化环境和即时扩展能力的基础设施。

    公司部署的AI代理越多,围绕机器生成的工作负载重新设计基础设施的压力就越大,这反过来又可能让代理在更大规模上的部署变得更便宜、更容易。

    发布时,OpenSearch Serverless将原生集成Vercel和Kiro等AI开发平台,这样开发者就可以为代理部署生产就绪的搜索和向量后端,而无需管理基础设施。

    这对开发者来说是个好消息——至少从理论上讲,代理驱动的应用的运维成本应该会降下来。但更大尺度上看,这件事的真正意义是:互联网的基础设施,正在从「为人类设计」转向「为机器设计」。人类仍然是使用者,但底层管道的优先级已经变了。


  • 程序员宁愿辞职也不愿不用AI写代码,这事儿迟早要翻车




    程序员宁愿辞职也不愿不用AI写代码,这事儿迟早要翻车

    2026年,研究人员发现了一个有趣的现象:你没法把AI编程工具从程序员手里抢走。哪怕只是参与一个实验,大多数开发者也不愿意在没有AI辅助的情况下写代码。

    这听起来像是AI提效的胜利宣言,但另一群研究者却发出了警告:AI确实让代码产出更快了,但产出的代码未必更好。而这,可能会在将来给这群开发者带来麻烦。

    「大多数开发者即使只是为了参与一项研究,也不愿意在没有AI的情况下工作。」——METR 研究团队

    一次没能完成的实验

    事情要从METR说起。这是一家受人尊敬的AI研究实验室,2026年2月,他们想做一件事:更新此前一项关于AI编程效率的里程碑研究。

    这项2025年发表的研究测量了开源开发者手工完成任务和使用AI完成任务的耗时差异。结果让很多人意外:开发者报告说AI让他们更高效了,但实测数据显示AI实际上拖慢了速度。代码生成确实更快,但开发者花在查找和修复错误、引导AI、等待AI完成任务上的时间,把节省的部分全吃掉了。

    所以当METR想重复这个实验、测量AI进步带来的效率提升时,他们碰壁了。开发者不愿意参与,理由是——「我不想在没有AI的情况下工作」,哪怕只是为了实验。

    最终METR在2026年5月改做了一项调查问卷,让技术人员自己报告AI带来的效率提升。不意外地,受访者普遍认为AI让自己的产出价值翻了一倍。


    「Tokenmaxxing」的幻灭

    2026年迄今最火的趋势之一,是把一个人消耗的token数量当作AI生产力 proxy(代理指标)的「Tokenmaxxing」运动。用得多就等于产出多,这个逻辑听起来很诱人,但它可能已经走到头了。

    亚马逊内部有一个叫Kirorank的token追踪排行榜。《金融时报》本周报道,这个排行榜被员工「玩坏」了——大家过度调用AI代理,推高了成本,亚马逊最终关停了它。这件事本身就很说明问题:AI使用量高,不等于生产力高。

    Uber更夸张。《The Information》报道,Uber在2026年前4个月就把全年的AI预算烧光了。CTO Andrew Macdonald最近在一个播客里说,这种支出并没有带来项目或生产力的可衡量提升。

    「现在代码写得快了两倍?希望你同时也把维护成本减半了。否则你就是在用暂时的速度提升,换取永久的债务。」——程序员 James Shore

    维护成本这个坑

    AI生成的代码并不一定减少后续维护需求,甚至可能增加。程序员兼作家James Shore在Hacker News上爆火的一篇博客里把这件事说得很直白。

    有不少数据支撑这个观点。AI可靠性工程代理创业公司Entelligence AI的创始人Aiswarya Sankar发推称,企业把44%的token花在修复AI自己引入的bug上。代码审查工具公司CodeRabbit分析开源拉取请求后发现,AI产生的代码比人工代码多出1.7倍的问题。

    当然,这些数据来自正在售卖AI代码审查工具的公司,多少有点自营自夸的嫌疑。但独立研究也发现了类似问题。新加坡管理大学的研究人员在2026年4月发表报告,警告「AI生成的代码可能给真实软件项目引入长期维护成本」。


    那到底该怎么办

    那些想向你推销AI编程代理的人会说,开发者大可以用AI编程代理来做修复代码的苦活,速度跟得上AI吐出代码的速度。Cognition(Devin的开发商)的创始人兼CEO Scott Wu就是这个观点的代言人。

    但就连他也承认,Devin虽然可以独立工作,但目前它的技能水平介于初级和中级程序员之间,取决于具体任务。这不是一个「交出去就不用管」的方案。

    新加坡管理大学的研究人员提出了一个更「人类」的方案:程序员应该像熟悉自己最爱的编程语言一样,深入了解AI擅长什么、不擅长什么。他们需要为AI设计强大的质量保证体系,并且像对待初级开发人员一样,仔细审查AI的输出。

    同时,研究者们认为(Scott Wu也同意),人类仍然应该负责大局性的工作:软件架构、安全设计,这些事现在还放心交给AI。

    说到底,AI是个好工具,但它现在还没好到让你把脑子交给它。程序员拒绝在没有AI的情况下工作,这件事本身没问题;有问题的是,拒绝同时意味着放弃了对自己产出质量的把关权。


  • Qdrant:31.6K Stars!高性能向量数据库,让AI语义检索快如闪电

    Qdrant 向量数据库

    🚀 项目简介

    Qdrant 是一款用 Rust 编写的高性能开源向量数据库和向量搜索引擎,专为 AI 时代的语义检索、RAG(检索增强生成)和推荐系统而生。它在 GitHub 上已获得 31.6K+ Stars,被 TripAdvisor、HubSpot、Canva 等知名企业用于生产环境。

    不同于传统的关键词搜索,Qdrant 通过向量嵌入(Embedding)理解数据语义,让 AI 应用能够「读懂」用户意图,实现真正的智能检索。

    ⚙️ 安装要求和过程

    环境要求

    • 🖥️ 最低配置:2核CPU、4GB RAM(用于开发测试)
    • 🚀 生产推荐:4核+、16GB+ RAM、SSD存储(处理亿级向量)
    • 🐳 依赖:Docker(推荐)、或直接在 Linux/macOS 上运行二进制文件
    • 📦 客户端支持:Python、JavaScript/TypeScript、Go、Rust、Java 等主流语言

    快速安装(Docker 方式)

    # 拉取最新镜像并启动
    docker run -p 6333:6333 \
      -v $(pwd)/qdrant_storage:/qdrant/storage \
      qdrant/qdrant
    
    # 验证运行状态
    curl http://localhost:6333/health
    
    # Python 客户端安装
    pip install qdrant-client
    
    # Node.js 客户端安装
    npm install @qdrant/js-client-rest

    快速开始(Python)

    from qdrant_client import QdrantClient, models
    
    # 连接本地 Qdrant
    client = QdrantClient("localhost", port=6333)
    
    # 创建集合
    client.create_collection(
        collection_name="my_documents",
        vectors_config=models.VectorParams(
            size=384,
            distance=models.Distance.COSINE
        )
    )
    
    # 插入向量数据
    client.upsert(
        collection_name="my_documents",
        points=models.Batch(
            ids=[1, 2, 3],
            vectors=[[0.1, 0.2, ...], ...],
            payloads=[{"text": "AI 简介"}, ...]
        )
    )
    
    # 语义搜索
    results = client.search(
        collection_name="my_documents",
        query_vector=[0.15, 0.25, ...],
        limit=5
    )
    print(results)

    ✨ 核心功能

    🔍 1. 混合检索(Hybrid Search)

    原生支持 Dense(稠密)+ Sparse(稀疏)向量混合检索,兼容 BM25、SPLADE++、miniCOIL 等算法。既可以理解语义,又能精准匹配关键词,大幅提升召回率和相关性。

    ⚡ 2. 极致性能与量化

    基于 Rust 构建,内置 SIMD 优化和自研存储引擎 Gridstore。支持标量量化、二进制量化,最高可降低 64 倍内存占用,同时保持检索质量。可轻松存储数十亿级向量,延迟稳定在毫秒级。

    🔧 3. 实时索引与过滤

    新数据写入后可 立即被检索,无需全量重建索引。过滤逻辑在 HNSW 遍历过程中执行(单阶段过滤),无需前置/后置过滤,复杂条件下仍可保持高召回和低延迟。

    🚀 4. 企业级能力与云原生

    支持多租户、细粒度 RBAC 权限控制、私有网络、零停机升级、备份与时间点恢复。Qdrant Cloud 支持 AWS、GCP、Azure,自动扩缩容。已通过 SOC2、HIPAA 合规认证,符合 GDPR 标准。

    📡️ 5. 多模态与 SDK 生态

    单个对象可关联 多个向量,支持文本、图像、音频等多模态检索。提供 Python、JavaScript、Go、Rust、Java 等官方 SDK,内置 Web UI 可视化管理。

    🎯 典型使用场景

    📚 场景一:RAG(检索增强生成)—— 让 AI 回答有依据

    将企业知识库、技术文档、客服历史等数据向量化后存入 Qdrant,当用户提问时,先检索最相关的上下文,再送给 LLM 生成回答。相比直接让 AI 回答,RAG 能大幅减少幻觉,让回答有据可查。

    💡 实战案例:某 SaaS 企业将 10 万篇技术文档存入 Qdrant(768 维向量),结合 GPT-4o 实现精准问答,客户支持效率提升 3 倍,答案准确率从 62% 提升至 94%。

    🛒 场景二:推荐系统 —— 理解用户真正想要什么

    将商品、内容、用户行为都转化为向量,通过相似度匹配实现个性化推荐。Qdrant 的实时索引能力让新上架商品可被立即推荐,混合检索则兼顾了语义理解和精准匹配。

    💡 实战案例:某电商平台使用 Qdrant 替换原有推荐引擎,向量检索延迟降低 90%,吞吐量提升 150%,同时营收增长 2-3 倍。

    🔍 场景三:语义搜索 —— 突破关键词限制的智能检索

    传统搜索只能匹配关键词,而 Qdrant 的语义搜索能理解查询意图。用户搜索「如何训练大模型」,即使文档里没有这句话,而是写着「LLM 微调入门指南」,也能被准确召回。

    💝 推荐理由

    如果你正在构建 AI 应用,Qdrant 几乎是向量数据库的首选方案。我推荐它的理由很简单:

    • 🦀 Rust 带来的性能信心 —— 内存安全、无 GC 停顿、SIMD 优化,生产环境稳如磐石
    • 🌐 部署灵活 —— 本地 Docker、自建集群、全托管云服务,三种方式任意切换
    • 🔗 与 AI 生态无缝集成 —— LangChain、LlamaIndex、Haystack 等框架均有 Qdrant 适配器
    • 📈 经过生产验证 —— TripAdvisor、HubSpot、德意志电信、Canva 等企业在用,300+ 版本迭代,2.5 亿次下载
    • 💰 开源免费 —— Apache 2.0 协议,自托管完全免费,只有使用云服务才收费

    如果你用过 Pinecone 但觉得太贵,或者用过 Milvus 但觉得太重,Qdrant 会是一个「刚刚好」的选择。

    📥 下载地址


    📌 第43期 · GitHub热门AI开源项目系列 · 让AI开发不再成为瓶颈

  • 我把谷歌的Gemini Spark塞进日常生活一周,有些话想说

    谷歌在今年的I/O大会上发布了Gemini Spark——一个跑在云端虚拟机上的7×24小时AI智能体。CEO皮查伊当时开了个玩笑:”你可以合上笔记本电脑了。”这话明显是在暗戳戳地怼OpenClaw那种需要保持设备唤醒才能工作的方案。

    听起来很美好。但真正用了一圈之后,我发现Spark的定位其实挺尴尬的——它既不是给发烧友用的极客工具,也没有真正想清楚普通用户到底需要它干什么。

    它能做什么?实际测了四个场景

    我拿到了提前体验资格,给Spark安排了四个不同类型的任务,想看看这个”永远在线”的AI助手到底能帮上什么忙。

    Gemini Spark概念图
    Gemini Spark作为谷歌I/O 2026重点发布的AI智能体功能,定位”永远在线”(图源:Bloomberg / Getty Images)

    场景一:比价购物。我让Spark帮我在本地药店找优惠,哪些产品有折扣、哪些可以叠加优惠券。这块它做得不错——准确找到了参与促销的商品,还提醒我可以组合线上促销码。唯一翻车的是它推荐了一个已经失效的促销码,看来实时数据验证还是AI的弱项。

    场景二:一日游打包清单。让Spark查目的地天气、读取活动性质,然后给我出一份携带建议清单,还要导入Google Keep。结果你猜怎么着?Spark根本不支持Google Keep。作为谷歌自家的产品,这个遗漏实在说不过去。最后它给我塞了一份Google Docs文档,然后说”你可以去看那个文档当做清单”——行吧。

    Spark给我出的打包建议其实挺到位的:草坪椅、水、防晒霜、墨镜、太阳落山后穿的薄外套、可重复使用的购物袋,还提醒了我活动不允许带狗。问题不出在AI的理解能力,出在它和谷歌自家生态的打通程度上。

    场景三:本地周末活动推荐。我住的小城市不算热闹,但要靠自己翻遍所有本地简报、Facebook群组、线上报纸来找周末去处,实在太花时间了。Spark这次表现不错——它设置了一个网页搜索,结合我的Gmail里订阅的本地简报,整理出了一份近期活动清单。我甚至发现了有个年度”海狸女王”选美大赛在为湿地保护筹款——这种冷门活动我平时根本不可能主动搜到。

    场景四:价格监控。让Spark帮我盯着一款贵妇眼霜的降价情况,到了目标价就提醒我。这块Spark理解了意图,但把监控频率设成了”每两周检查一次”——如果你等的是一个转瞬即逝的闪购促销,两周一次的频率基本等于没监控。


    最大的问题:它为什么是个”独立品牌”?

    这是我用了之后最想吐槽的一点。Spark本质上就是Gemini的一个运行模式,但它被谷歌做成了一个有独立名字、独立切换开关的”产品”。用户要在Gemini的界面里手动切换”切换到Spark”——我作为一个正常人,为什么要思考”我这个需求是普通对话还是后台任务”?我只想输入请求然后完事。

    更要命的是,iPhone用户目前没法通过硬件按键或者手势直接唤起Spark。你得先打开Gemini App,再从里面手动切换模式。隔壁苹果的Siri shortcuts都能做到按一下侧键就触发自定义流程了,谷歌这个体验说实话有点掉队。

    Gemini Spark界面截图
    Gemini Spark的操作界面,用户需要手动切换模式(图源:TechCrunch screenshot)

    值不值得用?

    如果你已经是Google生态的深度用户(Gmail、Google日历、Google Docs全套在用),Spark确实能帮你省一些平时要手动整理的时间。但如果你期待它是一个能替你完成”跨应用复杂操作”的真·智能体,目前还差得远。

    谷歌说Spark未来会通过MCP协议接入更多第三方服务,到时候也许真的能做到”帮我在Resy上订餐厅”或者”监控机票价格自动下单”。但在那之前,Spark更像是一个”能记住你偏好的后台Gmail摘要生成器”——有用,但还没到非用不可的程度。

    • ✅ 优势:与Google生产力套件集成较深,云端常驻不依赖本地设备
    • ✅ 优势:摘要类任务表现稳定,节省日常信息整理时间
    • ❌ 劣势:缺少Google Keep集成,笔记场景体验割裂
    • ❌ 劣势:独立品牌增加认知负担,用户不清楚何时该用Spark
    • ⚠️ 待观察:MCP扩展落地后能力边界才能真正确定
  • 软银砸下750亿欧元在法国建数据中心,欧洲AI基础设施迎来最大单笔投资

    孙正义的软银这次把赌注压在了法国。5月31日,软银集团宣布将在法国投资最高750亿欧元(约合870亿美元),建设总容量最高5吉瓦的新一代数据中心。这是软银迄今为止在欧洲最大的一笔AI基础设施投入。

    为什么是法国?

    法国经济部长罗兰·莱斯库尔在一份声明中把这笔投资称为”法国总统马克龙要把本国打造成AI全产业链重镇”的有力证明。软银的这笔钱不是撒胡椒面——第一阶段就会在敦刻尔克(洛恩-普拉日)、博斯凯和布尚三地动工,到2031年先交付3.1吉瓦的容量给上法兰西大区。

    5吉瓦是什么概念?大约相当于500万户欧洲家庭同时满负荷用电的功率。把这些算力全部用来跑大模型,能同时支撑数十个千亿参数级别的模型训练任务。

    数据中心建设概念图
    软银此次投资将用于建设大规模AI数据中心集群(图源:Getty Images)

    美国那边还在吵,欧洲直接开干

    有意思的是,数据中心建设在美国正遭遇越来越大的阻力。环保团体在起诉,电网运营商警告超负荷,公用事业公司则在抬价——今年2月TechCrunch还专门写过一篇讲美国公众对AI基础设施的反对声浪在升温的文章。

    但软银显然没被吓退。就在今年2月,软银还宣布要在俄亥俄州建一个由9.2吉瓦天然气电厂专门供电的数据中心,那笔投入已经高达330亿美元。欧洲这边选择法国,除了马克龙政府的政策吸引力,还有一个重要原因:法国的核能发电占比超过70%,低碳电力对承诺ESG目标的科技巨头来说是一张好牌。


    OpenAI关系户的身份,让这笔投资更值得玩味

    软银既是OpenAI的投资方,也是OpenAI最大的企业客户之一——去年11月两家公司还在日本宣布成立合资公司,那笔交易的逻辑就是软银帮OpenAI落地亚洲市场。现在欧洲这5吉瓦的算力如果最终投产,OpenAI很可能是头号租户。

    换个角度看,这也说明算力基础设施的军备竞赛已经不局限于美中两个超级市场了。欧洲正在用政策+清洁能源的组合拳抢跑,法国能不能借这波投资真正成为”欧洲的AI高地”,接下来几年就看马克龙政府的后续动作了。

    • 投资规模:最高750亿欧元(约870亿美元)
    • 总容量:最高5吉瓦数据中心用电容量
    • 首批落地:敦刻尔克、博斯凯、布尚(2031年前交付3.1吉瓦)
    • 战略意义:软银在欧洲最大单笔AI基础设施投资
  • Figma Make 现在可以直接编辑你的生产代码库了

    设计师和程序员之间的”交接”永远是个麻烦。设计稿画得漂漂亮亮,到了工程师手里要重新写一遍代码,中间总有信息损耗。Figma 这个月悄悄把这件事的边界推前了一步。

    Figma Make 现在不只是帮你”生成”代码了——它真的能直接编辑你仓库里的生产代码。

    以前叫”应用构建器”,现在叫”可视化软件编辑器”

    Figma Make 是 Figma 在 2025 年推出的 AI 功能,原本的定位是让设计师(或者不会写代码的人)用自然语言描述,然后自动生成一个可交互的应用原型。

    这次更新的重点是:Make 不再只是”生成原型”,它现在可以通过 Figma 桌面应用 连接到你的生产环境或者沙盒代码仓库,然后直接在 Figma 的界面里编辑真实代码。

    Figma Make 代码库可视化编辑器
    Figma Make 现在成为可视化软件编辑器(图片来源:Figma / The Verge)

    新增的编辑面板,能调的东西还挺细

    配合这次更新,Figma 还在 Make 里加了一个专门的编辑面板。你能在这个面板里直接调整布局、颜色、字体大小、各种视觉效果——这些改动能直接反映到连接的代码库里。

    这背后的逻辑是:设计师在 Figma 里改 design token,Figma 通过某种机制把对应的代码变更同步到仓库。目前 Figma 官方没有详细披露技术实现细节,但方向很清楚——让设计到代码的链路尽可能短。


    和 GitHub Copilot、Cursor 不是一个赛道

    有人会问:这东西和 GitHub Copilot 或者 Cursor 有什么区别?区别其实挺大。

    Copilot 和 Cursor 是给程序员用的,核心场景是在写代码的过程中获得 AI 辅助。Figma Make 这个新功能的受众更像是产品经理、设计师、或者全栈工程师里偏前端的人——他们想在”看到的”和”跑起来的”之间减少摩擦。

    换个角度说:Copilot 帮你写代码,Figma Make 让你在设计工具里直接”看见”代码长什么样、甚至直接改它。一个在编辑器里,一个在设计画布里。

    这件事的真正意义是:设计稿和最终产品之间的那道墙,又薄了一层。

    目前还在早期,但方向值得盯着

    目前这个功能需要通过 Figma 桌面应用才能用,并且要自己配置代码仓库的连接。对于已经用 Figma 做设计管理的团队来说,这个功能的吸引力是显而易见的——少一个”翻译”环节,就少一层出错的可能。

    Figma 没有披露支持哪些框架、怎么处理合并冲突、代码同步的机制细节。这些都会在后续的实测中逐渐浮出水面。但大方向已经很清楚:设计工具不再满足于只做”设计”,它想往下游走一步。

  • 微软 Copilot Health 上线预览,能直接读取你的医疗记录

    你的睡眠数据说一件事,血液检查又说另一件事。问题不是信息不够,而是从来没有一个工具能把它们连起来看。微软这个月把 Copilot Health 推到预览阶段,想做的就是这个——把你的健康信息、可穿戴设备数据和医疗记录塞进同一个 AI 窗口。

    微软每天已经收到超过 5000 万个健康问题询问——但太多人在真正需要的时候还是拿不到可信的健康指导。这就是我们做 Copilot Health 的原因。

    它不是诊断工具,但是个整合器

    先说清楚:Copilot Health 不能诊断疾病,也不能替代医生。微软把这个定位成一个”安全空间”,让你把分散在各处的健康信息汇总起来,然后给出一个你能看懂的解读。

    具体能做什么?你可以建立一个”健康档案”,把自己的健康背景和目标写进去,这样 AI 给出的建议不会是千篇一律的套话。它可以对接 Apple Health 等可穿戴设备数据,也会逐步支持更多第三方健康应用。

    微软Copilot Health AI界面
    Copilot Health 将健康数据整合进统一 AI 界面(配图来源:The Verge)

    能连 5 万家美国医疗机构的记录

    这是最有实用价值的部分:Copilot Health 可以对接美国超过 5 万家医疗机构的健康记录。你把数据授权连进来之后,AI 会把实验室检查结果、用药记录、就诊历史放在一起分析,给你一个整体视图。

    比如你刚拿到一份血液检查报告,上面有一堆你看不懂的缩写和数值。丢给 Copilot Health,它会结合你的健康档案和可穿戴设备数据,告诉你哪些指标偏离了你的基线、可能意味着什么、下一步该问医生什么问题。


    隐私是真保护还是说说而已?

    健康数据是最敏感的个人数据之一,微软知道这点,所以在宣传里把”安全”放在了前面。Copilot Health 的对话记录不会和 Copilot 的其他功能共享,也不会用来训练 AI 模型。数据在存储和传输时都经过加密。

    用户可以随时管理或删除已连接的健康数据源,也可以随时断开授权。微软还拉了来自 24 个国家超过 250 名外部医生组成顾问小组,加上内部临床团队一起把关。产品还拿到了 ISO/IEC 42001 的 AI 管理标准认证。

    国家健康委员会的评价是:”Copilot Health 在打造更可信、以患者为中心的数字健康体验方面取得了有意义的进展。”

    当然,认证是一回事,实际用起来怎么样是另一回事。目前这个功能只向美国地区、18 岁以上、持有 Microsoft 365 个人版/家庭版/高级版订阅的用户开放预览,工作账户暂时不支持。


    和 OpenAI、Anthropic 的健康 AI 比怎么样?

    OpenAI 和 Anthropic 之前都推出过健康相关的 AI 功能,但微软这次的差异化在于”整合”——它不是让你去和一个单独的 AI 健康应用对话,而是直接嵌进你已经每天都在用的 Copilot 里,并且能真的连上医疗机构的记录系统。

    这也符合微软的整体战略:把 AI 能力渗透进每一个已有的生产力场景,而不是做一个独立的 AI 健康应用让你再去学一遍怎么用。目前这个打法在编程场景(GitHub Copilot)已经被验证过了,现在他们想在健康场景再复制一次。

  • GitHub Copilot改按token计费,有开发者月账单从29美元飙到750美元

    6月1日,GitHub Copilot的计费模式要变天了。微软把原来每个月固定费率订阅,改成了按token使用量计费。这个变化对个人开发者和小型团队来说,代价可能相当惨烈。

    消息在Reddit和X上传开之后,吐槽帖铺天盖地。有个用户说自己现在每个月付大约29美元,新模式下算下来每个月要接近750美元——涨了将近25倍。另一个人的账单更夸张,从每月50美元左右直接跳到了3000美元上下。光看数字确实吓人。

    一名Reddit用户原话是:”真是个笑话。这种新的使用量计费模式贵得离谱,我打算直接取消订阅。这个价格下,它已经没有任何性价比和实用价值了。”

    两派观点吵翻了

    帖子下面的评论区,画风出现了明显分化。一部分人同情这些”账单暴涨”的用户,认为微软之前一直在鼓励无节制使用Copilot,各种”氛围编码”(vibe coding)的工作流被官方当成正面案例来宣传,现在突然改规则,感觉像是背刺。

    另一派则说,能达到这种天价账单的,多半是没有任何工程约束地乱用AI——让模型不停地重试、生成大量冗余代码、开几十个子代理并发跑任务。有经验的开发者表示,自己一整天用下来,超额费用很少,和新定价之间的差距根本没那么夸张。

    有个回帖说得很直白:费用高到这种程度,唯一的可能是你纯粹在靠”氛围编码”干活,进行了大量冗余的迭代。如果你把它当作一个正经工具来用,哪怕是小团队也能负担得起。

    GitHub Copilot interface screenshot
    GitHub Copilot 聊天界面(图源:GitHub)

    微软之前到底在补贴多少

    这场争论里有个问题挺值得思考:Copilot之前每个月十几美元或者几十美元的订阅费,微软到底在里面补贴了多少?按token计费的模式一出来,答案似乎开始浮出水面了——之前的价格,可能远低于实际服务成本。

    尤其是”氛围编码”这种用法,一个提示词下去,模型可能要跑好几个小时甚至好几天,中间还要生成几十个甚至上百个子代理协同工作。这种级别的计算资源消耗,用每个月29美元去覆盖,换谁来做都很难盈利。

    有用户发帖直接问:”天呐,Copilot之前到底亏了多少钱?”这个问题目前只有微软自己能回答。但可以肯定的是,从固定费率切换到按量计费,不只是定价策略的调整,更是微软把AI辅助编程从”补贴推广期”推进到”商业化回收期”的一个转折点。

    对于专业开发者来说,只要用法得当,新计费模式倒也不至于用不起。真正受冲击的,是那些把Copilot当成”随便试错”工具的 casual 用户——他们可能要开始认真算账了。

  • 谷歌AI把Google拼错了,大语言模型的拼写死穴到底能不能修好

    上周有个网友在X上发帖吐槽,说用谷歌搜索”Google”的时候,AI概览(AI Overview)给出的结果里,Google这个单词里有两个P。等等,Google里明明只有一个P啊。

    这不是孤例。有人问AI”poop”里有几个R,它说有1个(实际是2个)。问”journalism”怎么拼,它给出的答案是j-o-u-r-n-a-d-i-s-m——多了一个完全不存在的D。”disregard”更离谱,AI概览直接输出了”我明白了,如果你有新的提示或问题请告诉我”,活像是把训练语料里的客服话术当成了单词释义。

    谷歌通过邮件向TechCrunch回应称:”统计单词内字母数量一直是大语言模型的已知难题,我们正在努力修复这个问题。”说实话这个回应挺诚实的——他们没狡辩,也没说这是特性不是bug。

    为什么AI不会拼单词

    这事的根源得从Transformer架构说起。大语言模型处理文本的时候,不是逐字母读取的,它会把文本切分成一个个”token”——一个token可能是一个完整单词,也可能是一个音节,甚至单个字母。模型内部存的是这些token的数字编码,根本不知道T-H-E分别是哪几个字母。

    阿尔伯塔大学的AI研究员Matthew Guzdial给TechCrunch举了个例子:当你输入单词”the”的时候,模型拿到的是”the”这个整体对应的编码,它完全不知道这个单词是由T、H、E这三个字母构成的。这就好比你认识一个人,但说不出他长什么样——你知道这个token”长什么样”,但拆不开它。

    Google AI Overview spelling error screenshot
    谷歌AI概览将”Google”错误拼写为两个P的截图(TechCrunch修改标注)

    东北大学研究大语言模型可解释性的博士生Sheridan Feucht说得更直白:对于语言模型来说,”单词”到底是什么其实是很难界定的问题。哪怕我们让人类专家达成一个完美的token词表共识,模型可能还是觉得需要把内容拆分得更细。他猜测,由于这种模糊性,根本不存在完美的分词器。


    这不是第一次,也不会是最后一次

    谷歌上一次在AI搜索上翻车,还是AI概览刚上线的时候。当时它引用讽刺网站The Onion和Reddit的帖子,给出了”每天吃一块小石头””在披萨上涂胶水”这类荒谬建议,闹得沸沸扬扬。这次谷歌把整个搜索体验都改成了生成式AI驱动,是搜索产品25年来最大的一次重构,拼写错误只是暴露出来的冰山一角。

    有意思的是,拼写测试已经成了AI圈的一个梗。每当有公司发布新模型,大家都会问它”strawberry里有几个R”——这个简单问题曾经难倒了所有主流模型。现在情况好多了,但Google这件事说明,哪怕模型能在几秒内写出一整个应用,或者解决困扰数学家几十年的难题,拼写能力还是和幼儿园小朋友差不多。

    研究人员并不乐观认为这个问题能被彻底解决。但换个角度想,大语言模型的价值本来也不在拼写能力上。这些明显的低级错误反而是个好事——它提醒我们,AI并不完美,哪怕它有时候看起来全知全能。用AI输出结果之前,二次核对准确性这件事,永远不能省。

  • LLMs-from-scratch:96.3K Stars!从零手写大模型,彻底搞懂LLM底层原理

    LLMs-from-scratch:96.3K Stars!从零手写大模型,彻底搞懂LLM底层原理

    LLMs-from-scratch 封面

    《Build a Large Language Model (From Scratch)》书籍封面


    📌 项目简介

    LLMs-from-scratch 是 Sebastian Raschka 所著《Build a Large Language Model (From Scratch)》一书的官方代码仓库,带你从零开始用 PyTorch 手写实现类 GPT 大语言模型,覆盖数据处理、注意力机制、GPT 架构、预训练、微调全流程,是搞懂 LLM 底层原理的最佳实战项目。


    ⚙️ 安装要求与过程

    环境要求

    • Python 3.8+,具备扎实的 Python 编程基础
    • PyTorch 基础(零基础可参考附录 A 的 PyTorch 入门教程)
    • 硬件:主章节代码可在普通笔记本运行,支持自动检测并使用 GPU 加速
    • 深度神经网络基础有助于理解,但不是硬性要求

    快速安装步骤

    # 1. 克隆仓库(只拉取最新版本,减少下载量)
    git clone --depth 1 https://github.com/rasbt/LLMs-from-scratch.git
    
    # 2. 进入目录
    cd LLMs-from-scratch
    
    # 3. 安装依赖
    pip install -r requirements.txt
    
    # 4. (可选)安装 Jupyter Notebook
    pip install jupyter
    
    # 5. 启动 Notebook,按章节运行代码
    jupyter notebook

    📌 如果你从 Manning 官网下载了代码包,建议前往 GitHub 官方仓库获取最新更新。


    ✨ 核心功能

    🧠 从零实现注意力机制

    手写实现单头/多头自注意力(Self-Attention)机制,深入理解 Query/Key/Value 的数学原理,不依赖任何高层封装库。

    🏗️ 完整 GPT 架构实现

    从词嵌入、位置编码到 Transformer 解码器块,完整实现 GPT 模型架构,代码逐行对照论文,透明可调试。

    🔥 预训练与微调全流程

    覆盖无标注数据预训练、文本分类微调、指令遵循微调(SFT)完整流程,附带可运行的训练脚本。

    🚀 主流模型权重加载

    支持加载 Llama 3.2、Qwen3、Gemma 3、OLMo 3 等主流开源模型的预训练权重进行微调与推理。

    📚 附录与扩展内容

    包含 PyTorch 分布式训练(DDP)入门、LoRA 高效微调实现、分组查询注意力(GQA)、MoE 混合专家架构等进阶内容,一书在手,LLM 技术栈全覆盖。


    🎯 典型使用场景

    场景一:系统学习 LLM 底层原理

    不看封装库黑盒,从张量运算级别理解 Transformer 和 GPT。每章配有练习和解答,适合有一定 Python 基础、想深入 LLM 原理的开发者系统学习。可搭配书籍《Build a Large Language Model (From Scratch)》一起使用,理解更透彻。

    场景二:在自己的数据上训练定制 LLM

    参考第 5 章的预训练代码,基于自定义数据集训练专属小模型;或参考第 7 章的指令微调代码,用开源指令数据集微调模型,使其具备遵循指令的能力,用于垂直领域应用。

    场景三:作为 LLM 课程的配套实践材料

    本书配有 17 小时 15 分钟的官方视频教程,章节结构清晰,练习册《Test Yourself On Build a Large Language Model》可用来自测掌握程度,非常适合作为高校课程、企业内训或自学小组的配套实践材料。


    💡 推荐理由

    我第一次翻开这本书的代码时,有一种「原来 GPT 是这样工作的」的恍然大悟感。

    大多数 LLM 教程要么停留在概念层面,要么直接调用 transformers 库,黑盒到底。而 LLMs-from-scratch 选择了一条更难但更有价值的路:从张量运算级别手写实现,不依赖任何高层封装。

    我最喜欢的是第 4 章实现 GPT 模型那部分——当你亲手写出 self.attn = MultiHeadAttention(...)self.ln = LayerNorm(...) 并成功跑通时,那种「我理解了」的满足感是任何调用封装库都给不了的。

    作者 Sebastian Raschka 是 LLM 领域的顶级教育者,Lightning AI 的 LLM 负责人,写书风格非常「工程师友好」——没有冗余的数学推导,每一行代码都能跑,每一章都有配套练习。

    如果你是想深入 LLM 原理的开发者、研究者,或正在准备 LLM 相关技术面试,这个项目绝对值得你花时间从头到尾跟一遍。96.3K 的 Star 数不是偶然,是工程师们用脚投票的结果。


    📥 下载地址

    🔗 GitHub 仓库

    https://github.com/rasbt/LLMs-from-scratch

    访问 GitHub →

    📘 配套书籍

    《Build a Large Language Model (From Scratch)》
    Manning 出版,ISBN 978-1633437166

    Amazon 购买 →

    🎬 配套视频教程(17h15min)

    Manning LiveVideo:Master and Build Large Language Models

    观看视频 →


    📌 小提示:本项目是《Build a Large Language Model (From Scratch)》的官方配套代码,建议配合书籍一起学习,理解效果最佳。书籍附录 A 还提供了 PyTorch 入门教程,适合 PyTorch 零基础读者补基础。