博客

  • Qdrant:31.6K Stars!高性能向量数据库,让AI语义检索快如闪电

    Qdrant 向量数据库

    🚀 项目简介

    Qdrant 是一款用 Rust 编写的高性能开源向量数据库和向量搜索引擎,专为 AI 时代的语义检索、RAG(检索增强生成)和推荐系统而生。它在 GitHub 上已获得 31.6K+ Stars,被 TripAdvisor、HubSpot、Canva 等知名企业用于生产环境。

    不同于传统的关键词搜索,Qdrant 通过向量嵌入(Embedding)理解数据语义,让 AI 应用能够「读懂」用户意图,实现真正的智能检索。

    ⚙️ 安装要求和过程

    环境要求

    • 🖥️ 最低配置:2核CPU、4GB RAM(用于开发测试)
    • 🚀 生产推荐:4核+、16GB+ RAM、SSD存储(处理亿级向量)
    • 🐳 依赖:Docker(推荐)、或直接在 Linux/macOS 上运行二进制文件
    • 📦 客户端支持:Python、JavaScript/TypeScript、Go、Rust、Java 等主流语言

    快速安装(Docker 方式)

    # 拉取最新镜像并启动
    docker run -p 6333:6333 \
      -v $(pwd)/qdrant_storage:/qdrant/storage \
      qdrant/qdrant
    
    # 验证运行状态
    curl http://localhost:6333/health
    
    # Python 客户端安装
    pip install qdrant-client
    
    # Node.js 客户端安装
    npm install @qdrant/js-client-rest

    快速开始(Python)

    from qdrant_client import QdrantClient, models
    
    # 连接本地 Qdrant
    client = QdrantClient("localhost", port=6333)
    
    # 创建集合
    client.create_collection(
        collection_name="my_documents",
        vectors_config=models.VectorParams(
            size=384,
            distance=models.Distance.COSINE
        )
    )
    
    # 插入向量数据
    client.upsert(
        collection_name="my_documents",
        points=models.Batch(
            ids=[1, 2, 3],
            vectors=[[0.1, 0.2, ...], ...],
            payloads=[{"text": "AI 简介"}, ...]
        )
    )
    
    # 语义搜索
    results = client.search(
        collection_name="my_documents",
        query_vector=[0.15, 0.25, ...],
        limit=5
    )
    print(results)

    ✨ 核心功能

    🔍 1. 混合检索(Hybrid Search)

    原生支持 Dense(稠密)+ Sparse(稀疏)向量混合检索,兼容 BM25、SPLADE++、miniCOIL 等算法。既可以理解语义,又能精准匹配关键词,大幅提升召回率和相关性。

    ⚡ 2. 极致性能与量化

    基于 Rust 构建,内置 SIMD 优化和自研存储引擎 Gridstore。支持标量量化、二进制量化,最高可降低 64 倍内存占用,同时保持检索质量。可轻松存储数十亿级向量,延迟稳定在毫秒级。

    🔧 3. 实时索引与过滤

    新数据写入后可 立即被检索,无需全量重建索引。过滤逻辑在 HNSW 遍历过程中执行(单阶段过滤),无需前置/后置过滤,复杂条件下仍可保持高召回和低延迟。

    🚀 4. 企业级能力与云原生

    支持多租户、细粒度 RBAC 权限控制、私有网络、零停机升级、备份与时间点恢复。Qdrant Cloud 支持 AWS、GCP、Azure,自动扩缩容。已通过 SOC2、HIPAA 合规认证,符合 GDPR 标准。

    📡️ 5. 多模态与 SDK 生态

    单个对象可关联 多个向量,支持文本、图像、音频等多模态检索。提供 Python、JavaScript、Go、Rust、Java 等官方 SDK,内置 Web UI 可视化管理。

    🎯 典型使用场景

    📚 场景一:RAG(检索增强生成)—— 让 AI 回答有依据

    将企业知识库、技术文档、客服历史等数据向量化后存入 Qdrant,当用户提问时,先检索最相关的上下文,再送给 LLM 生成回答。相比直接让 AI 回答,RAG 能大幅减少幻觉,让回答有据可查。

    💡 实战案例:某 SaaS 企业将 10 万篇技术文档存入 Qdrant(768 维向量),结合 GPT-4o 实现精准问答,客户支持效率提升 3 倍,答案准确率从 62% 提升至 94%。

    🛒 场景二:推荐系统 —— 理解用户真正想要什么

    将商品、内容、用户行为都转化为向量,通过相似度匹配实现个性化推荐。Qdrant 的实时索引能力让新上架商品可被立即推荐,混合检索则兼顾了语义理解和精准匹配。

    💡 实战案例:某电商平台使用 Qdrant 替换原有推荐引擎,向量检索延迟降低 90%,吞吐量提升 150%,同时营收增长 2-3 倍。

    🔍 场景三:语义搜索 —— 突破关键词限制的智能检索

    传统搜索只能匹配关键词,而 Qdrant 的语义搜索能理解查询意图。用户搜索「如何训练大模型」,即使文档里没有这句话,而是写着「LLM 微调入门指南」,也能被准确召回。

    💝 推荐理由

    如果你正在构建 AI 应用,Qdrant 几乎是向量数据库的首选方案。我推荐它的理由很简单:

    • 🦀 Rust 带来的性能信心 —— 内存安全、无 GC 停顿、SIMD 优化,生产环境稳如磐石
    • 🌐 部署灵活 —— 本地 Docker、自建集群、全托管云服务,三种方式任意切换
    • 🔗 与 AI 生态无缝集成 —— LangChain、LlamaIndex、Haystack 等框架均有 Qdrant 适配器
    • 📈 经过生产验证 —— TripAdvisor、HubSpot、德意志电信、Canva 等企业在用,300+ 版本迭代,2.5 亿次下载
    • 💰 开源免费 —— Apache 2.0 协议,自托管完全免费,只有使用云服务才收费

    如果你用过 Pinecone 但觉得太贵,或者用过 Milvus 但觉得太重,Qdrant 会是一个「刚刚好」的选择。

    📥 下载地址


    📌 第43期 · GitHub热门AI开源项目系列 · 让AI开发不再成为瓶颈

  • 我把谷歌的Gemini Spark塞进日常生活一周,有些话想说

    谷歌在今年的I/O大会上发布了Gemini Spark——一个跑在云端虚拟机上的7×24小时AI智能体。CEO皮查伊当时开了个玩笑:”你可以合上笔记本电脑了。”这话明显是在暗戳戳地怼OpenClaw那种需要保持设备唤醒才能工作的方案。

    听起来很美好。但真正用了一圈之后,我发现Spark的定位其实挺尴尬的——它既不是给发烧友用的极客工具,也没有真正想清楚普通用户到底需要它干什么。

    它能做什么?实际测了四个场景

    我拿到了提前体验资格,给Spark安排了四个不同类型的任务,想看看这个”永远在线”的AI助手到底能帮上什么忙。

    Gemini Spark概念图
    Gemini Spark作为谷歌I/O 2026重点发布的AI智能体功能,定位”永远在线”(图源:Bloomberg / Getty Images)

    场景一:比价购物。我让Spark帮我在本地药店找优惠,哪些产品有折扣、哪些可以叠加优惠券。这块它做得不错——准确找到了参与促销的商品,还提醒我可以组合线上促销码。唯一翻车的是它推荐了一个已经失效的促销码,看来实时数据验证还是AI的弱项。

    场景二:一日游打包清单。让Spark查目的地天气、读取活动性质,然后给我出一份携带建议清单,还要导入Google Keep。结果你猜怎么着?Spark根本不支持Google Keep。作为谷歌自家的产品,这个遗漏实在说不过去。最后它给我塞了一份Google Docs文档,然后说”你可以去看那个文档当做清单”——行吧。

    Spark给我出的打包建议其实挺到位的:草坪椅、水、防晒霜、墨镜、太阳落山后穿的薄外套、可重复使用的购物袋,还提醒了我活动不允许带狗。问题不出在AI的理解能力,出在它和谷歌自家生态的打通程度上。

    场景三:本地周末活动推荐。我住的小城市不算热闹,但要靠自己翻遍所有本地简报、Facebook群组、线上报纸来找周末去处,实在太花时间了。Spark这次表现不错——它设置了一个网页搜索,结合我的Gmail里订阅的本地简报,整理出了一份近期活动清单。我甚至发现了有个年度”海狸女王”选美大赛在为湿地保护筹款——这种冷门活动我平时根本不可能主动搜到。

    场景四:价格监控。让Spark帮我盯着一款贵妇眼霜的降价情况,到了目标价就提醒我。这块Spark理解了意图,但把监控频率设成了”每两周检查一次”——如果你等的是一个转瞬即逝的闪购促销,两周一次的频率基本等于没监控。


    最大的问题:它为什么是个”独立品牌”?

    这是我用了之后最想吐槽的一点。Spark本质上就是Gemini的一个运行模式,但它被谷歌做成了一个有独立名字、独立切换开关的”产品”。用户要在Gemini的界面里手动切换”切换到Spark”——我作为一个正常人,为什么要思考”我这个需求是普通对话还是后台任务”?我只想输入请求然后完事。

    更要命的是,iPhone用户目前没法通过硬件按键或者手势直接唤起Spark。你得先打开Gemini App,再从里面手动切换模式。隔壁苹果的Siri shortcuts都能做到按一下侧键就触发自定义流程了,谷歌这个体验说实话有点掉队。

    Gemini Spark界面截图
    Gemini Spark的操作界面,用户需要手动切换模式(图源:TechCrunch screenshot)

    值不值得用?

    如果你已经是Google生态的深度用户(Gmail、Google日历、Google Docs全套在用),Spark确实能帮你省一些平时要手动整理的时间。但如果你期待它是一个能替你完成”跨应用复杂操作”的真·智能体,目前还差得远。

    谷歌说Spark未来会通过MCP协议接入更多第三方服务,到时候也许真的能做到”帮我在Resy上订餐厅”或者”监控机票价格自动下单”。但在那之前,Spark更像是一个”能记住你偏好的后台Gmail摘要生成器”——有用,但还没到非用不可的程度。

    • ✅ 优势:与Google生产力套件集成较深,云端常驻不依赖本地设备
    • ✅ 优势:摘要类任务表现稳定,节省日常信息整理时间
    • ❌ 劣势:缺少Google Keep集成,笔记场景体验割裂
    • ❌ 劣势:独立品牌增加认知负担,用户不清楚何时该用Spark
    • ⚠️ 待观察:MCP扩展落地后能力边界才能真正确定
  • 软银砸下750亿欧元在法国建数据中心,欧洲AI基础设施迎来最大单笔投资

    孙正义的软银这次把赌注压在了法国。5月31日,软银集团宣布将在法国投资最高750亿欧元(约合870亿美元),建设总容量最高5吉瓦的新一代数据中心。这是软银迄今为止在欧洲最大的一笔AI基础设施投入。

    为什么是法国?

    法国经济部长罗兰·莱斯库尔在一份声明中把这笔投资称为”法国总统马克龙要把本国打造成AI全产业链重镇”的有力证明。软银的这笔钱不是撒胡椒面——第一阶段就会在敦刻尔克(洛恩-普拉日)、博斯凯和布尚三地动工,到2031年先交付3.1吉瓦的容量给上法兰西大区。

    5吉瓦是什么概念?大约相当于500万户欧洲家庭同时满负荷用电的功率。把这些算力全部用来跑大模型,能同时支撑数十个千亿参数级别的模型训练任务。

    数据中心建设概念图
    软银此次投资将用于建设大规模AI数据中心集群(图源:Getty Images)

    美国那边还在吵,欧洲直接开干

    有意思的是,数据中心建设在美国正遭遇越来越大的阻力。环保团体在起诉,电网运营商警告超负荷,公用事业公司则在抬价——今年2月TechCrunch还专门写过一篇讲美国公众对AI基础设施的反对声浪在升温的文章。

    但软银显然没被吓退。就在今年2月,软银还宣布要在俄亥俄州建一个由9.2吉瓦天然气电厂专门供电的数据中心,那笔投入已经高达330亿美元。欧洲这边选择法国,除了马克龙政府的政策吸引力,还有一个重要原因:法国的核能发电占比超过70%,低碳电力对承诺ESG目标的科技巨头来说是一张好牌。


    OpenAI关系户的身份,让这笔投资更值得玩味

    软银既是OpenAI的投资方,也是OpenAI最大的企业客户之一——去年11月两家公司还在日本宣布成立合资公司,那笔交易的逻辑就是软银帮OpenAI落地亚洲市场。现在欧洲这5吉瓦的算力如果最终投产,OpenAI很可能是头号租户。

    换个角度看,这也说明算力基础设施的军备竞赛已经不局限于美中两个超级市场了。欧洲正在用政策+清洁能源的组合拳抢跑,法国能不能借这波投资真正成为”欧洲的AI高地”,接下来几年就看马克龙政府的后续动作了。

    • 投资规模:最高750亿欧元(约870亿美元)
    • 总容量:最高5吉瓦数据中心用电容量
    • 首批落地:敦刻尔克、博斯凯、布尚(2031年前交付3.1吉瓦)
    • 战略意义:软银在欧洲最大单笔AI基础设施投资
  • Figma Make 现在可以直接编辑你的生产代码库了

    设计师和程序员之间的”交接”永远是个麻烦。设计稿画得漂漂亮亮,到了工程师手里要重新写一遍代码,中间总有信息损耗。Figma 这个月悄悄把这件事的边界推前了一步。

    Figma Make 现在不只是帮你”生成”代码了——它真的能直接编辑你仓库里的生产代码。

    以前叫”应用构建器”,现在叫”可视化软件编辑器”

    Figma Make 是 Figma 在 2025 年推出的 AI 功能,原本的定位是让设计师(或者不会写代码的人)用自然语言描述,然后自动生成一个可交互的应用原型。

    这次更新的重点是:Make 不再只是”生成原型”,它现在可以通过 Figma 桌面应用 连接到你的生产环境或者沙盒代码仓库,然后直接在 Figma 的界面里编辑真实代码。

    Figma Make 代码库可视化编辑器
    Figma Make 现在成为可视化软件编辑器(图片来源:Figma / The Verge)

    新增的编辑面板,能调的东西还挺细

    配合这次更新,Figma 还在 Make 里加了一个专门的编辑面板。你能在这个面板里直接调整布局、颜色、字体大小、各种视觉效果——这些改动能直接反映到连接的代码库里。

    这背后的逻辑是:设计师在 Figma 里改 design token,Figma 通过某种机制把对应的代码变更同步到仓库。目前 Figma 官方没有详细披露技术实现细节,但方向很清楚——让设计到代码的链路尽可能短。


    和 GitHub Copilot、Cursor 不是一个赛道

    有人会问:这东西和 GitHub Copilot 或者 Cursor 有什么区别?区别其实挺大。

    Copilot 和 Cursor 是给程序员用的,核心场景是在写代码的过程中获得 AI 辅助。Figma Make 这个新功能的受众更像是产品经理、设计师、或者全栈工程师里偏前端的人——他们想在”看到的”和”跑起来的”之间减少摩擦。

    换个角度说:Copilot 帮你写代码,Figma Make 让你在设计工具里直接”看见”代码长什么样、甚至直接改它。一个在编辑器里,一个在设计画布里。

    这件事的真正意义是:设计稿和最终产品之间的那道墙,又薄了一层。

    目前还在早期,但方向值得盯着

    目前这个功能需要通过 Figma 桌面应用才能用,并且要自己配置代码仓库的连接。对于已经用 Figma 做设计管理的团队来说,这个功能的吸引力是显而易见的——少一个”翻译”环节,就少一层出错的可能。

    Figma 没有披露支持哪些框架、怎么处理合并冲突、代码同步的机制细节。这些都会在后续的实测中逐渐浮出水面。但大方向已经很清楚:设计工具不再满足于只做”设计”,它想往下游走一步。

  • 微软 Copilot Health 上线预览,能直接读取你的医疗记录

    你的睡眠数据说一件事,血液检查又说另一件事。问题不是信息不够,而是从来没有一个工具能把它们连起来看。微软这个月把 Copilot Health 推到预览阶段,想做的就是这个——把你的健康信息、可穿戴设备数据和医疗记录塞进同一个 AI 窗口。

    微软每天已经收到超过 5000 万个健康问题询问——但太多人在真正需要的时候还是拿不到可信的健康指导。这就是我们做 Copilot Health 的原因。

    它不是诊断工具,但是个整合器

    先说清楚:Copilot Health 不能诊断疾病,也不能替代医生。微软把这个定位成一个”安全空间”,让你把分散在各处的健康信息汇总起来,然后给出一个你能看懂的解读。

    具体能做什么?你可以建立一个”健康档案”,把自己的健康背景和目标写进去,这样 AI 给出的建议不会是千篇一律的套话。它可以对接 Apple Health 等可穿戴设备数据,也会逐步支持更多第三方健康应用。

    微软Copilot Health AI界面
    Copilot Health 将健康数据整合进统一 AI 界面(配图来源:The Verge)

    能连 5 万家美国医疗机构的记录

    这是最有实用价值的部分:Copilot Health 可以对接美国超过 5 万家医疗机构的健康记录。你把数据授权连进来之后,AI 会把实验室检查结果、用药记录、就诊历史放在一起分析,给你一个整体视图。

    比如你刚拿到一份血液检查报告,上面有一堆你看不懂的缩写和数值。丢给 Copilot Health,它会结合你的健康档案和可穿戴设备数据,告诉你哪些指标偏离了你的基线、可能意味着什么、下一步该问医生什么问题。


    隐私是真保护还是说说而已?

    健康数据是最敏感的个人数据之一,微软知道这点,所以在宣传里把”安全”放在了前面。Copilot Health 的对话记录不会和 Copilot 的其他功能共享,也不会用来训练 AI 模型。数据在存储和传输时都经过加密。

    用户可以随时管理或删除已连接的健康数据源,也可以随时断开授权。微软还拉了来自 24 个国家超过 250 名外部医生组成顾问小组,加上内部临床团队一起把关。产品还拿到了 ISO/IEC 42001 的 AI 管理标准认证。

    国家健康委员会的评价是:”Copilot Health 在打造更可信、以患者为中心的数字健康体验方面取得了有意义的进展。”

    当然,认证是一回事,实际用起来怎么样是另一回事。目前这个功能只向美国地区、18 岁以上、持有 Microsoft 365 个人版/家庭版/高级版订阅的用户开放预览,工作账户暂时不支持。


    和 OpenAI、Anthropic 的健康 AI 比怎么样?

    OpenAI 和 Anthropic 之前都推出过健康相关的 AI 功能,但微软这次的差异化在于”整合”——它不是让你去和一个单独的 AI 健康应用对话,而是直接嵌进你已经每天都在用的 Copilot 里,并且能真的连上医疗机构的记录系统。

    这也符合微软的整体战略:把 AI 能力渗透进每一个已有的生产力场景,而不是做一个独立的 AI 健康应用让你再去学一遍怎么用。目前这个打法在编程场景(GitHub Copilot)已经被验证过了,现在他们想在健康场景再复制一次。

  • GitHub Copilot改按token计费,有开发者月账单从29美元飙到750美元

    6月1日,GitHub Copilot的计费模式要变天了。微软把原来每个月固定费率订阅,改成了按token使用量计费。这个变化对个人开发者和小型团队来说,代价可能相当惨烈。

    消息在Reddit和X上传开之后,吐槽帖铺天盖地。有个用户说自己现在每个月付大约29美元,新模式下算下来每个月要接近750美元——涨了将近25倍。另一个人的账单更夸张,从每月50美元左右直接跳到了3000美元上下。光看数字确实吓人。

    一名Reddit用户原话是:”真是个笑话。这种新的使用量计费模式贵得离谱,我打算直接取消订阅。这个价格下,它已经没有任何性价比和实用价值了。”

    两派观点吵翻了

    帖子下面的评论区,画风出现了明显分化。一部分人同情这些”账单暴涨”的用户,认为微软之前一直在鼓励无节制使用Copilot,各种”氛围编码”(vibe coding)的工作流被官方当成正面案例来宣传,现在突然改规则,感觉像是背刺。

    另一派则说,能达到这种天价账单的,多半是没有任何工程约束地乱用AI——让模型不停地重试、生成大量冗余代码、开几十个子代理并发跑任务。有经验的开发者表示,自己一整天用下来,超额费用很少,和新定价之间的差距根本没那么夸张。

    有个回帖说得很直白:费用高到这种程度,唯一的可能是你纯粹在靠”氛围编码”干活,进行了大量冗余的迭代。如果你把它当作一个正经工具来用,哪怕是小团队也能负担得起。

    GitHub Copilot interface screenshot
    GitHub Copilot 聊天界面(图源:GitHub)

    微软之前到底在补贴多少

    这场争论里有个问题挺值得思考:Copilot之前每个月十几美元或者几十美元的订阅费,微软到底在里面补贴了多少?按token计费的模式一出来,答案似乎开始浮出水面了——之前的价格,可能远低于实际服务成本。

    尤其是”氛围编码”这种用法,一个提示词下去,模型可能要跑好几个小时甚至好几天,中间还要生成几十个甚至上百个子代理协同工作。这种级别的计算资源消耗,用每个月29美元去覆盖,换谁来做都很难盈利。

    有用户发帖直接问:”天呐,Copilot之前到底亏了多少钱?”这个问题目前只有微软自己能回答。但可以肯定的是,从固定费率切换到按量计费,不只是定价策略的调整,更是微软把AI辅助编程从”补贴推广期”推进到”商业化回收期”的一个转折点。

    对于专业开发者来说,只要用法得当,新计费模式倒也不至于用不起。真正受冲击的,是那些把Copilot当成”随便试错”工具的 casual 用户——他们可能要开始认真算账了。

  • 谷歌AI把Google拼错了,大语言模型的拼写死穴到底能不能修好

    上周有个网友在X上发帖吐槽,说用谷歌搜索”Google”的时候,AI概览(AI Overview)给出的结果里,Google这个单词里有两个P。等等,Google里明明只有一个P啊。

    这不是孤例。有人问AI”poop”里有几个R,它说有1个(实际是2个)。问”journalism”怎么拼,它给出的答案是j-o-u-r-n-a-d-i-s-m——多了一个完全不存在的D。”disregard”更离谱,AI概览直接输出了”我明白了,如果你有新的提示或问题请告诉我”,活像是把训练语料里的客服话术当成了单词释义。

    谷歌通过邮件向TechCrunch回应称:”统计单词内字母数量一直是大语言模型的已知难题,我们正在努力修复这个问题。”说实话这个回应挺诚实的——他们没狡辩,也没说这是特性不是bug。

    为什么AI不会拼单词

    这事的根源得从Transformer架构说起。大语言模型处理文本的时候,不是逐字母读取的,它会把文本切分成一个个”token”——一个token可能是一个完整单词,也可能是一个音节,甚至单个字母。模型内部存的是这些token的数字编码,根本不知道T-H-E分别是哪几个字母。

    阿尔伯塔大学的AI研究员Matthew Guzdial给TechCrunch举了个例子:当你输入单词”the”的时候,模型拿到的是”the”这个整体对应的编码,它完全不知道这个单词是由T、H、E这三个字母构成的。这就好比你认识一个人,但说不出他长什么样——你知道这个token”长什么样”,但拆不开它。

    Google AI Overview spelling error screenshot
    谷歌AI概览将”Google”错误拼写为两个P的截图(TechCrunch修改标注)

    东北大学研究大语言模型可解释性的博士生Sheridan Feucht说得更直白:对于语言模型来说,”单词”到底是什么其实是很难界定的问题。哪怕我们让人类专家达成一个完美的token词表共识,模型可能还是觉得需要把内容拆分得更细。他猜测,由于这种模糊性,根本不存在完美的分词器。


    这不是第一次,也不会是最后一次

    谷歌上一次在AI搜索上翻车,还是AI概览刚上线的时候。当时它引用讽刺网站The Onion和Reddit的帖子,给出了”每天吃一块小石头””在披萨上涂胶水”这类荒谬建议,闹得沸沸扬扬。这次谷歌把整个搜索体验都改成了生成式AI驱动,是搜索产品25年来最大的一次重构,拼写错误只是暴露出来的冰山一角。

    有意思的是,拼写测试已经成了AI圈的一个梗。每当有公司发布新模型,大家都会问它”strawberry里有几个R”——这个简单问题曾经难倒了所有主流模型。现在情况好多了,但Google这件事说明,哪怕模型能在几秒内写出一整个应用,或者解决困扰数学家几十年的难题,拼写能力还是和幼儿园小朋友差不多。

    研究人员并不乐观认为这个问题能被彻底解决。但换个角度想,大语言模型的价值本来也不在拼写能力上。这些明显的低级错误反而是个好事——它提醒我们,AI并不完美,哪怕它有时候看起来全知全能。用AI输出结果之前,二次核对准确性这件事,永远不能省。

  • LLMs-from-scratch:96.3K Stars!从零手写大模型,彻底搞懂LLM底层原理

    LLMs-from-scratch:96.3K Stars!从零手写大模型,彻底搞懂LLM底层原理

    LLMs-from-scratch 封面

    《Build a Large Language Model (From Scratch)》书籍封面


    📌 项目简介

    LLMs-from-scratch 是 Sebastian Raschka 所著《Build a Large Language Model (From Scratch)》一书的官方代码仓库,带你从零开始用 PyTorch 手写实现类 GPT 大语言模型,覆盖数据处理、注意力机制、GPT 架构、预训练、微调全流程,是搞懂 LLM 底层原理的最佳实战项目。


    ⚙️ 安装要求与过程

    环境要求

    • Python 3.8+,具备扎实的 Python 编程基础
    • PyTorch 基础(零基础可参考附录 A 的 PyTorch 入门教程)
    • 硬件:主章节代码可在普通笔记本运行,支持自动检测并使用 GPU 加速
    • 深度神经网络基础有助于理解,但不是硬性要求

    快速安装步骤

    # 1. 克隆仓库(只拉取最新版本,减少下载量)
    git clone --depth 1 https://github.com/rasbt/LLMs-from-scratch.git
    
    # 2. 进入目录
    cd LLMs-from-scratch
    
    # 3. 安装依赖
    pip install -r requirements.txt
    
    # 4. (可选)安装 Jupyter Notebook
    pip install jupyter
    
    # 5. 启动 Notebook,按章节运行代码
    jupyter notebook

    📌 如果你从 Manning 官网下载了代码包,建议前往 GitHub 官方仓库获取最新更新。


    ✨ 核心功能

    🧠 从零实现注意力机制

    手写实现单头/多头自注意力(Self-Attention)机制,深入理解 Query/Key/Value 的数学原理,不依赖任何高层封装库。

    🏗️ 完整 GPT 架构实现

    从词嵌入、位置编码到 Transformer 解码器块,完整实现 GPT 模型架构,代码逐行对照论文,透明可调试。

    🔥 预训练与微调全流程

    覆盖无标注数据预训练、文本分类微调、指令遵循微调(SFT)完整流程,附带可运行的训练脚本。

    🚀 主流模型权重加载

    支持加载 Llama 3.2、Qwen3、Gemma 3、OLMo 3 等主流开源模型的预训练权重进行微调与推理。

    📚 附录与扩展内容

    包含 PyTorch 分布式训练(DDP)入门、LoRA 高效微调实现、分组查询注意力(GQA)、MoE 混合专家架构等进阶内容,一书在手,LLM 技术栈全覆盖。


    🎯 典型使用场景

    场景一:系统学习 LLM 底层原理

    不看封装库黑盒,从张量运算级别理解 Transformer 和 GPT。每章配有练习和解答,适合有一定 Python 基础、想深入 LLM 原理的开发者系统学习。可搭配书籍《Build a Large Language Model (From Scratch)》一起使用,理解更透彻。

    场景二:在自己的数据上训练定制 LLM

    参考第 5 章的预训练代码,基于自定义数据集训练专属小模型;或参考第 7 章的指令微调代码,用开源指令数据集微调模型,使其具备遵循指令的能力,用于垂直领域应用。

    场景三:作为 LLM 课程的配套实践材料

    本书配有 17 小时 15 分钟的官方视频教程,章节结构清晰,练习册《Test Yourself On Build a Large Language Model》可用来自测掌握程度,非常适合作为高校课程、企业内训或自学小组的配套实践材料。


    💡 推荐理由

    我第一次翻开这本书的代码时,有一种「原来 GPT 是这样工作的」的恍然大悟感。

    大多数 LLM 教程要么停留在概念层面,要么直接调用 transformers 库,黑盒到底。而 LLMs-from-scratch 选择了一条更难但更有价值的路:从张量运算级别手写实现,不依赖任何高层封装。

    我最喜欢的是第 4 章实现 GPT 模型那部分——当你亲手写出 self.attn = MultiHeadAttention(...)self.ln = LayerNorm(...) 并成功跑通时,那种「我理解了」的满足感是任何调用封装库都给不了的。

    作者 Sebastian Raschka 是 LLM 领域的顶级教育者,Lightning AI 的 LLM 负责人,写书风格非常「工程师友好」——没有冗余的数学推导,每一行代码都能跑,每一章都有配套练习。

    如果你是想深入 LLM 原理的开发者、研究者,或正在准备 LLM 相关技术面试,这个项目绝对值得你花时间从头到尾跟一遍。96.3K 的 Star 数不是偶然,是工程师们用脚投票的结果。


    📥 下载地址

    🔗 GitHub 仓库

    https://github.com/rasbt/LLMs-from-scratch

    访问 GitHub →

    📘 配套书籍

    《Build a Large Language Model (From Scratch)》
    Manning 出版,ISBN 978-1633437166

    Amazon 购买 →

    🎬 配套视频教程(17h15min)

    Manning LiveVideo:Master and Build Large Language Models

    观看视频 →


    📌 小提示:本项目是《Build a Large Language Model (From Scratch)》的官方配套代码,建议配合书籍一起学习,理解效果最佳。书籍附录 A 还提供了 PyTorch 入门教程,适合 PyTorch 零基础读者补基础。

  • 梦幻清真寺古尔邦节可爱动物乱入自拍

    梦幻清真寺古尔邦节可爱动物乱入自拍

    梦幻清真寺古尔邦节可爱动物乱入自拍



    🤖 ChatGPT

    🇺🇸 English Prompt

    Ultra-realistic super cute chaotic Eid al-Adha selfie photograph in front of a dreamy pastel-toned grand mosque during bright sunny afternoon, featuring an adorable stylish young woman (face photo refference) taking a playful ultra-wide-angle smartphone selfie surrounded by funny wholesome animal chaos.
    The young woman wears a soft pastel cream oversized cardigan layered over a flowy white dress with cute ribbon details, paired with chunky pastel sneakers and tiny heart-shaped accessories.
    Her long dark hair flows softly in the wind with colorful mini hair clips and ribbon pins.
    She smiles brightly with sparkling eyes while making a tiny finger-heart pose toward the camera, giving soft bubbly “cute chaos” energy.
    Camera style: extreme fisheye selfie perspective, slight smartphone distortion, playful close-up framing, TikTok / Instagram selfie aesthetic, dynamic arm-reaching composition, candid chaotic energy.
    Surrounding her are adorable expressive farm animals: a fluffy baby goat wearing tiny pink sunglasses, a smiling cow with flower crown photobombing beside her, another baby goat jumping happily behind her, tiny chicks waddling around her feet, a sleepy sheep sitting adorably in foreground, and one goat trying to lick the camera lens.
    Background: beautiful giant mosque with glowing cream domes and tall white minarets, soft pastel blue sky, warm fluffy clouds, busy Eid celebration crowd, cute wholesome festival atmosphere, people laughing and reacting in the background.
    Add playful cute doodles everywhere: tiny pastel hearts, sparkles, comic stars, handwritten texts like: “CUTIE CHAOS ” “HELP ” “EID BESTIE” “too cute to handle” “AAAAA” small arrows pointing at funny animals, sticker-style smiley faces, pastel flower doodles, soft glitter effects.
    Lighting: bright warm sunlight, soft dreamy glow, slightly overexposed highlights, cute pastel color grading, gentle lens flare, vibrant cheerful tones.
    Visual style: ultra-realistic but adorable social media chaos, Pinterest cute-core aesthetic, playful Gen Z selfie energy, wholesome meme realism, soft cinematic textures, high-detail smartphone HDR look, TikTok viral cute aesthetic, funny but heartwarming composition.
    Mood & keywords: cute Eid chaos, wholesome funny selfie, adorable animal madness, playful Muslim holiday vibe, bubbly internet energy, cozy pastel realism, dreamy social media aesthetic, chaotic but lovable happiness.
    Typography overlay: large handwritten pastel doodle text: “Selamat Hari Raya Idul Adha”
    Aspect ratio 9:16 vertical.

    🇨🇳 中文提示词

    超现实超级可爱的混乱古尔邦节自拍照,背景是明媚阳光下午梦幻柔和色调的大清真寺,主角是一位可爱的时尚年轻女性(面部照片参考),她正拿着智能手机拍摄俏皮的超广角自拍,周围环绕着滑稽温馨的动物混乱场景。
    这位年轻女性穿着一件柔软的淡奶油色大号开衫,里面层搭一件带有可爱丝带细节的飘逸白裙,搭配笨重的柔和色调运动鞋和微小的爱心形状饰品。
    她长长的深色头发在风中轻轻飘动,别着彩色迷你发夹和丝带发卡。
    她灿烂地微笑着,眼睛闪闪发光,对着镜头做一个微小的手指爱心姿势,散发出柔和活泼的“可爱混乱”能量。
    镜头风格:极端鱼眼自拍透视,轻微的智能手机畸变,俏皮的特写构图,TikTok / Instagram 自拍美学,动态的手臂延伸构图,自然的混乱能量。
    周围是可爱、表情丰富的农场动物:一只戴着粉色小墨镜的毛茸茸小山羊,一只戴着花环在旁边抢镜微笑的奶牛,另一只在后面快乐跳跃的小山羊,在脚边摇摇摆摆走动的小鸡,前景中坐着的一只可爱贪睡的绵羊,还有一只山羊正试图舔镜头。
    背景:美丽的宏伟清真寺,有着发光的奶油色圆顶和高大的白色宣礼塔,淡蓝色天空,温暖蓬松的云朵,热闹的古尔邦节庆祝人群,可爱温馨的节日气氛,背景中人们在欢笑和互动。
    到处添加俏皮可爱的涂鸦:微小的淡色爱心、闪光、漫画星、手写文字如:“CUTIE CHAOS ” “HELP ” “EID BESTIE” “too cute to handle” “AAAAA” 指向滑稽动物的小箭头,贴纸风格的笑脸,淡雅的花卉涂鸦,柔和的闪粉效果。
    光效:明亮的温暖阳光,柔和梦幻的光芒,轻微过曝的高光,可爱的柔和色调调色,柔和的镜头光晕,充满活力且欢快的色调。
    视觉风格:超现实但可爱的社交媒体混乱感,Pinterest cute-core 美学,俏皮的 Z 世代自拍能量,温馨的梗图现实主义,柔和的电影质感,高细节智能手机 HDR 效果,TikTok 病毒式可爱美学,滑稽但暖心的构图。
    情绪与关键词:可爱的古尔邦节混乱,温馨有趣的自拍,可爱的动物疯狂,俏皮的穆斯林节日氛围,活泼的互联网能量,舒适的柔和现实主义,梦幻的社交媒体美学,混乱但可爱的幸福感。
    排版叠加:大型手写淡色涂鸦文字:“Selamat Hari Raya Idul Adha”
    纵横比 9:16 垂直。
  • 伦敦大本钟与威斯敏斯特宫建筑蓝图

    伦敦大本钟与威斯敏斯特宫建筑蓝图

    伦敦大本钟与威斯敏斯特宫建筑蓝图



    🤖 ChatGPT

    🇺🇸 English Prompt

    Ultra-detailed architectural blueprint sheet of Big Ben (Elizabeth Tower) and the Palace of Westminster in London, full-height front view with detailed engineering annotations and historical callout labels. Iconic Gothic Revival clock tower featuring the world-famous clock face, ornate stone carvings, golden architectural details, towering spire, massive clock mechanism, historic bell chamber, and the Houses of Parliament beside the River Thames.
    
    Include detailed infographic elements showing height of 96 meters (315 feet), completed in 1859, designed by Augustus Pugin and Charles Barry, Great Bell "Big Ben" weighing over 13 tons, four illuminated clock faces, internal spiral staircase, parliamentary chambers, restoration history, fire protection systems, structural reinforcement, security measures, tourism facilities, and cultural significance.
    
    Surrounding the landmark are architectural schematics, clock mechanism diagrams, construction timeline graphics, structural engineering notes, floor layouts, skyline comparisons, historical facts, restoration details, and educational infographic UI elements. Style combines historical architecture visualization, engineering blueprint aesthetics, travel documentary design, cinematic city photography, and ultra-detailed professional landmark presentation, 8k, 1744x2336

    🇨🇳 中文提示词

    伦敦大本钟(伊丽莎白塔)和威斯敏斯特宫的超详细建筑蓝图表,全高正面视图,带有详细的工程注释和历史标注标签。标志性的哥特复兴式钟楼,拥有世界闻名的表盘、华丽的石雕、金色的建筑细节、高耸的尖塔、巨大的时钟机构、历史悠久的钟室,以及泰晤士河畔的国会大厦。包含详细的信息图元素,展示 96 米(315 英尺)的高度,于 1859 年完工,由奥古斯都·普金和查尔斯·巴里设计,重达 13 吨以上的大钟“大本钟”,四个照明钟面,内部螺旋楼梯,议会厅,修复历史,防火系统,结构加固,安保措施,旅游设施和文化意义。地标周围是建筑示意图、时钟机构图、施工时间线图、结构工程笔记、楼层布局、天际线对比、历史事实、修复细节和教育信息图 UI 元素。风格结合了历史建筑可视化、工程蓝图美学、旅行纪录片设计、电影城市摄影和超详细的专业地标展示,8k,1744x2336