标签: GitHub

  • GitHub Copilot开始按token收费了,开发者炸了

    GitHub Copilot的”黄金时代”——至少是对于个人开发者和小型团队来说——眼看就要结束了。从2026年6月1日起,微软要把Copilot的计费方式从固定订阅制改成按token使用量收费。这意味着,有些人每个月的账单可能会从29美元直接飙到750美元甚至更高。

    消息一出,Reddit和X上到处是哀嚎。有用户算了一笔账:他现在每个月付大约29美元,按新的计费模式一算,月费直接飙到接近750美元。他的原话是:”这就是个笑话。这个新使用模式贵得离谱,我要取消订阅了。这个价格完全不划算,也没有任何实用价值。”

    “What a joke. 新定价模型太可笑了。我现在的费用大约是29美元/月,新费率会让我的成本飙到接近750美元/月。在任何实际意义上,它都不再具备成本效益或实用性。”

    —— Reddit用户评论

    有人涨单,有人叫好

    当然,也不是一边倒的骂声。有不少资深开发者跳出来说:如果你知道自己在干什么,正常使用根本不会消耗那么多token。那些账单爆炸的人,大多是没什么实际开发经验、靠”氛围编码(vibe coding)”一路莽过来的。

    一位用户在Reddit上写道:”我们这些人整天工作也几乎不会产生超额费用,费用暴涨的唯一原因是你纯粹靠’氛围编码’,做了大量冗余的迭代。”按这个逻辑,Copilot的新计费模式其实是在惩罚”滥用”——那些把Copilot当成万能答案生成器、不管三七二十一就让它大规模重构代码的人。

    GitHub Copilot新计费模式
    GitHub Copilot界面(图源:TechCrunch)

    还有人把矛头指向了微软的旧模式:”Copilot之前到底亏了多少钱?”——言下之意,之前的固定订阅制根本不可持续,现在只是把真实成本还给用户而已。

    微软”背刺”了吗?

    比较微妙的指控是:微软过去一直在鼓励用户无差别地使用Copilot,各种功能更新都在降低token消耗门槛,让单次高级请求就能跑数个小时、生成几十甚至上百个子代理。现在突然改规则,等于是把账单甩给了用户。

    有用户写了一段挺有代表性的评论:”按照微软设计和鼓励的方式使用系统的用户没有错,唯一的责任方是微软。是微软提供了这种计费方式,还不断降低大规模消耗token的门槛。”

    这其实牵出了一个更大的问题:AI编程助手的商业模式到底是什么?按订阅收取固定费用,对于重度用户来说提供商注定亏钱;按token收费,又会把大批中小开发者和轻量用户吓跑。目前看来,微软的选择是先保大客户——大型企业大概率还能拿到定制合同,而个人开发者和小团队就只能自己想办法了。


    截至发稿,微软还没有对媒体的询问做出回应。6月1日的新计费规则正式生效后,开发者社区的反应会更有看头。如果你现在还在用Copilot,建议提前去算一下自己的预估使用量——别等到账单来了才吓一跳。

  • Qdrant:31.6K Stars!高性能向量数据库,让AI语义检索快如闪电

    Qdrant 向量数据库

    🚀 项目简介

    Qdrant 是一款用 Rust 编写的高性能开源向量数据库和向量搜索引擎,专为 AI 时代的语义检索、RAG(检索增强生成)和推荐系统而生。它在 GitHub 上已获得 31.6K+ Stars,被 TripAdvisor、HubSpot、Canva 等知名企业用于生产环境。

    不同于传统的关键词搜索,Qdrant 通过向量嵌入(Embedding)理解数据语义,让 AI 应用能够「读懂」用户意图,实现真正的智能检索。

    ⚙️ 安装要求和过程

    环境要求

    • 🖥️ 最低配置:2核CPU、4GB RAM(用于开发测试)
    • 🚀 生产推荐:4核+、16GB+ RAM、SSD存储(处理亿级向量)
    • 🐳 依赖:Docker(推荐)、或直接在 Linux/macOS 上运行二进制文件
    • 📦 客户端支持:Python、JavaScript/TypeScript、Go、Rust、Java 等主流语言

    快速安装(Docker 方式)

    # 拉取最新镜像并启动
    docker run -p 6333:6333 \
      -v $(pwd)/qdrant_storage:/qdrant/storage \
      qdrant/qdrant
    
    # 验证运行状态
    curl http://localhost:6333/health
    
    # Python 客户端安装
    pip install qdrant-client
    
    # Node.js 客户端安装
    npm install @qdrant/js-client-rest

    快速开始(Python)

    from qdrant_client import QdrantClient, models
    
    # 连接本地 Qdrant
    client = QdrantClient("localhost", port=6333)
    
    # 创建集合
    client.create_collection(
        collection_name="my_documents",
        vectors_config=models.VectorParams(
            size=384,
            distance=models.Distance.COSINE
        )
    )
    
    # 插入向量数据
    client.upsert(
        collection_name="my_documents",
        points=models.Batch(
            ids=[1, 2, 3],
            vectors=[[0.1, 0.2, ...], ...],
            payloads=[{"text": "AI 简介"}, ...]
        )
    )
    
    # 语义搜索
    results = client.search(
        collection_name="my_documents",
        query_vector=[0.15, 0.25, ...],
        limit=5
    )
    print(results)

    ✨ 核心功能

    🔍 1. 混合检索(Hybrid Search)

    原生支持 Dense(稠密)+ Sparse(稀疏)向量混合检索,兼容 BM25、SPLADE++、miniCOIL 等算法。既可以理解语义,又能精准匹配关键词,大幅提升召回率和相关性。

    ⚡ 2. 极致性能与量化

    基于 Rust 构建,内置 SIMD 优化和自研存储引擎 Gridstore。支持标量量化、二进制量化,最高可降低 64 倍内存占用,同时保持检索质量。可轻松存储数十亿级向量,延迟稳定在毫秒级。

    🔧 3. 实时索引与过滤

    新数据写入后可 立即被检索,无需全量重建索引。过滤逻辑在 HNSW 遍历过程中执行(单阶段过滤),无需前置/后置过滤,复杂条件下仍可保持高召回和低延迟。

    🚀 4. 企业级能力与云原生

    支持多租户、细粒度 RBAC 权限控制、私有网络、零停机升级、备份与时间点恢复。Qdrant Cloud 支持 AWS、GCP、Azure,自动扩缩容。已通过 SOC2、HIPAA 合规认证,符合 GDPR 标准。

    📡️ 5. 多模态与 SDK 生态

    单个对象可关联 多个向量,支持文本、图像、音频等多模态检索。提供 Python、JavaScript、Go、Rust、Java 等官方 SDK,内置 Web UI 可视化管理。

    🎯 典型使用场景

    📚 场景一:RAG(检索增强生成)—— 让 AI 回答有依据

    将企业知识库、技术文档、客服历史等数据向量化后存入 Qdrant,当用户提问时,先检索最相关的上下文,再送给 LLM 生成回答。相比直接让 AI 回答,RAG 能大幅减少幻觉,让回答有据可查。

    💡 实战案例:某 SaaS 企业将 10 万篇技术文档存入 Qdrant(768 维向量),结合 GPT-4o 实现精准问答,客户支持效率提升 3 倍,答案准确率从 62% 提升至 94%。

    🛒 场景二:推荐系统 —— 理解用户真正想要什么

    将商品、内容、用户行为都转化为向量,通过相似度匹配实现个性化推荐。Qdrant 的实时索引能力让新上架商品可被立即推荐,混合检索则兼顾了语义理解和精准匹配。

    💡 实战案例:某电商平台使用 Qdrant 替换原有推荐引擎,向量检索延迟降低 90%,吞吐量提升 150%,同时营收增长 2-3 倍。

    🔍 场景三:语义搜索 —— 突破关键词限制的智能检索

    传统搜索只能匹配关键词,而 Qdrant 的语义搜索能理解查询意图。用户搜索「如何训练大模型」,即使文档里没有这句话,而是写着「LLM 微调入门指南」,也能被准确召回。

    💝 推荐理由

    如果你正在构建 AI 应用,Qdrant 几乎是向量数据库的首选方案。我推荐它的理由很简单:

    • 🦀 Rust 带来的性能信心 —— 内存安全、无 GC 停顿、SIMD 优化,生产环境稳如磐石
    • 🌐 部署灵活 —— 本地 Docker、自建集群、全托管云服务,三种方式任意切换
    • 🔗 与 AI 生态无缝集成 —— LangChain、LlamaIndex、Haystack 等框架均有 Qdrant 适配器
    • 📈 经过生产验证 —— TripAdvisor、HubSpot、德意志电信、Canva 等企业在用,300+ 版本迭代,2.5 亿次下载
    • 💰 开源免费 —— Apache 2.0 协议,自托管完全免费,只有使用云服务才收费

    如果你用过 Pinecone 但觉得太贵,或者用过 Milvus 但觉得太重,Qdrant 会是一个「刚刚好」的选择。

    📥 下载地址


    📌 第43期 · GitHub热门AI开源项目系列 · 让AI开发不再成为瓶颈

  • GitHub Copilot改按token计费,有开发者月账单从29美元飙到750美元

    6月1日,GitHub Copilot的计费模式要变天了。微软把原来每个月固定费率订阅,改成了按token使用量计费。这个变化对个人开发者和小型团队来说,代价可能相当惨烈。

    消息在Reddit和X上传开之后,吐槽帖铺天盖地。有个用户说自己现在每个月付大约29美元,新模式下算下来每个月要接近750美元——涨了将近25倍。另一个人的账单更夸张,从每月50美元左右直接跳到了3000美元上下。光看数字确实吓人。

    一名Reddit用户原话是:”真是个笑话。这种新的使用量计费模式贵得离谱,我打算直接取消订阅。这个价格下,它已经没有任何性价比和实用价值了。”

    两派观点吵翻了

    帖子下面的评论区,画风出现了明显分化。一部分人同情这些”账单暴涨”的用户,认为微软之前一直在鼓励无节制使用Copilot,各种”氛围编码”(vibe coding)的工作流被官方当成正面案例来宣传,现在突然改规则,感觉像是背刺。

    另一派则说,能达到这种天价账单的,多半是没有任何工程约束地乱用AI——让模型不停地重试、生成大量冗余代码、开几十个子代理并发跑任务。有经验的开发者表示,自己一整天用下来,超额费用很少,和新定价之间的差距根本没那么夸张。

    有个回帖说得很直白:费用高到这种程度,唯一的可能是你纯粹在靠”氛围编码”干活,进行了大量冗余的迭代。如果你把它当作一个正经工具来用,哪怕是小团队也能负担得起。

    GitHub Copilot interface screenshot
    GitHub Copilot 聊天界面(图源:GitHub)

    微软之前到底在补贴多少

    这场争论里有个问题挺值得思考:Copilot之前每个月十几美元或者几十美元的订阅费,微软到底在里面补贴了多少?按token计费的模式一出来,答案似乎开始浮出水面了——之前的价格,可能远低于实际服务成本。

    尤其是”氛围编码”这种用法,一个提示词下去,模型可能要跑好几个小时甚至好几天,中间还要生成几十个甚至上百个子代理协同工作。这种级别的计算资源消耗,用每个月29美元去覆盖,换谁来做都很难盈利。

    有用户发帖直接问:”天呐,Copilot之前到底亏了多少钱?”这个问题目前只有微软自己能回答。但可以肯定的是,从固定费率切换到按量计费,不只是定价策略的调整,更是微软把AI辅助编程从”补贴推广期”推进到”商业化回收期”的一个转折点。

    对于专业开发者来说,只要用法得当,新计费模式倒也不至于用不起。真正受冲击的,是那些把Copilot当成”随便试错”工具的 casual 用户——他们可能要开始认真算账了。

  • LLMs-from-scratch:96.3K Stars!从零手写大模型,彻底搞懂LLM底层原理

    LLMs-from-scratch:96.3K Stars!从零手写大模型,彻底搞懂LLM底层原理

    LLMs-from-scratch 封面

    《Build a Large Language Model (From Scratch)》书籍封面


    📌 项目简介

    LLMs-from-scratch 是 Sebastian Raschka 所著《Build a Large Language Model (From Scratch)》一书的官方代码仓库,带你从零开始用 PyTorch 手写实现类 GPT 大语言模型,覆盖数据处理、注意力机制、GPT 架构、预训练、微调全流程,是搞懂 LLM 底层原理的最佳实战项目。


    ⚙️ 安装要求与过程

    环境要求

    • Python 3.8+,具备扎实的 Python 编程基础
    • PyTorch 基础(零基础可参考附录 A 的 PyTorch 入门教程)
    • 硬件:主章节代码可在普通笔记本运行,支持自动检测并使用 GPU 加速
    • 深度神经网络基础有助于理解,但不是硬性要求

    快速安装步骤

    # 1. 克隆仓库(只拉取最新版本,减少下载量)
    git clone --depth 1 https://github.com/rasbt/LLMs-from-scratch.git
    
    # 2. 进入目录
    cd LLMs-from-scratch
    
    # 3. 安装依赖
    pip install -r requirements.txt
    
    # 4. (可选)安装 Jupyter Notebook
    pip install jupyter
    
    # 5. 启动 Notebook,按章节运行代码
    jupyter notebook

    📌 如果你从 Manning 官网下载了代码包,建议前往 GitHub 官方仓库获取最新更新。


    ✨ 核心功能

    🧠 从零实现注意力机制

    手写实现单头/多头自注意力(Self-Attention)机制,深入理解 Query/Key/Value 的数学原理,不依赖任何高层封装库。

    🏗️ 完整 GPT 架构实现

    从词嵌入、位置编码到 Transformer 解码器块,完整实现 GPT 模型架构,代码逐行对照论文,透明可调试。

    🔥 预训练与微调全流程

    覆盖无标注数据预训练、文本分类微调、指令遵循微调(SFT)完整流程,附带可运行的训练脚本。

    🚀 主流模型权重加载

    支持加载 Llama 3.2、Qwen3、Gemma 3、OLMo 3 等主流开源模型的预训练权重进行微调与推理。

    📚 附录与扩展内容

    包含 PyTorch 分布式训练(DDP)入门、LoRA 高效微调实现、分组查询注意力(GQA)、MoE 混合专家架构等进阶内容,一书在手,LLM 技术栈全覆盖。


    🎯 典型使用场景

    场景一:系统学习 LLM 底层原理

    不看封装库黑盒,从张量运算级别理解 Transformer 和 GPT。每章配有练习和解答,适合有一定 Python 基础、想深入 LLM 原理的开发者系统学习。可搭配书籍《Build a Large Language Model (From Scratch)》一起使用,理解更透彻。

    场景二:在自己的数据上训练定制 LLM

    参考第 5 章的预训练代码,基于自定义数据集训练专属小模型;或参考第 7 章的指令微调代码,用开源指令数据集微调模型,使其具备遵循指令的能力,用于垂直领域应用。

    场景三:作为 LLM 课程的配套实践材料

    本书配有 17 小时 15 分钟的官方视频教程,章节结构清晰,练习册《Test Yourself On Build a Large Language Model》可用来自测掌握程度,非常适合作为高校课程、企业内训或自学小组的配套实践材料。


    💡 推荐理由

    我第一次翻开这本书的代码时,有一种「原来 GPT 是这样工作的」的恍然大悟感。

    大多数 LLM 教程要么停留在概念层面,要么直接调用 transformers 库,黑盒到底。而 LLMs-from-scratch 选择了一条更难但更有价值的路:从张量运算级别手写实现,不依赖任何高层封装。

    我最喜欢的是第 4 章实现 GPT 模型那部分——当你亲手写出 self.attn = MultiHeadAttention(...)self.ln = LayerNorm(...) 并成功跑通时,那种「我理解了」的满足感是任何调用封装库都给不了的。

    作者 Sebastian Raschka 是 LLM 领域的顶级教育者,Lightning AI 的 LLM 负责人,写书风格非常「工程师友好」——没有冗余的数学推导,每一行代码都能跑,每一章都有配套练习。

    如果你是想深入 LLM 原理的开发者、研究者,或正在准备 LLM 相关技术面试,这个项目绝对值得你花时间从头到尾跟一遍。96.3K 的 Star 数不是偶然,是工程师们用脚投票的结果。


    📥 下载地址

    🔗 GitHub 仓库

    https://github.com/rasbt/LLMs-from-scratch

    访问 GitHub →

    📘 配套书籍

    《Build a Large Language Model (From Scratch)》
    Manning 出版,ISBN 978-1633437166

    Amazon 购买 →

    🎬 配套视频教程(17h15min)

    Manning LiveVideo:Master and Build Large Language Models

    观看视频 →


    📌 小提示:本项目是《Build a Large Language Model (From Scratch)》的官方配套代码,建议配合书籍一起学习,理解效果最佳。书籍附录 A 还提供了 PyTorch 入门教程,适合 PyTorch 零基础读者补基础。

  • Screenshot to Code:72.7K Stars!截图秒变代码,让前端开发效率提升10倍

    Screenshot to Code:72.7K Stars!截图秒变代码,让前端开发效率提升10倍

    Screenshot to Code 演示

    上传截图,AI自动生成对应代码


    🚀 项目简介

    Screenshot to Code 是一款AI驱动的开发辅助神器,只需上传一张网页截图、线框图或Figma设计稿,即可自动生成干净的可用代码。支持 HTML+CSS、React、Vue、Bootstrap 等多种技术栈,让设计稿到代码的转换从数小时缩短到几秒钟。


    ⚙️ 安装要求和过程

    💡 环境要求

    • Python 3.9+(后端依赖)
    • Node.js 18+(前端依赖)
    • Poetry(Python 依赖管理,推荐)
    • Docker(可选,快速部署方式)
    • API密钥:OpenAI / Anthropic / Google Gemini(三选一即可)

    🚀 快速安装步骤

    方式一:本地源码运行(推荐开发调试)

    # 1. 克隆项目
    git clone https://github.com/abi/screenshot-to-code.git
    cd screenshot-to-code
    
    # 2. 配置API密钥(后端)
    cd backend
    echo "OPENAI_API_KEY=sk-your-key" > .env
    echo "ANTHROPIC_API_KEY=your-key" >> .env
    echo "GEMINI_API_KEY=your-key" >> .env
    
    # 3. 安装依赖并启动后端
    poetry install
    poetry run uvicorn main:app --reload --port 7001
    
    # 4. 新终端启动前端
    cd ../frontend
    yarn
    yarn dev

    启动后访问 http://localhost:5173 即可使用。

    方式二:Docker 一键运行(推荐快速体验)

    # 在项目根目录执行
    echo "OPENAI_API_KEY=sk-your-key" > .env
    docker-compose up -d --build


    ✨ 核心功能

    🎯 截图转代码

    上传任意网页截图或设计稿,AI自动分析布局结构,生成对应前端代码,支持多种技术栈自由切换。

    🔄 多模型支持

    内置支持 Claude Opus/Sonnet、GPT-4.5/4.1、Gemini 3 Flash/Pro 等顶级模型,也支持自定义API兼容接口。

    🛠️ 多技术栈输出

    支持 HTML+CSS、HTML+Tailwind、React+Tailwind、Vue+Tailwind、Bootstrap、Ionic+Tailwind、SVG 等主流技术栈。

    🎬 录屏转原型(实验性)

    支持上传网站操作录屏视频,AI直接生成可交互的功能原型,非常适合产品快速验证和演示。

    🔒 隐私优先,本地可控

    支持通过 Ollama 运行本地开源模型,所有数据不出本地;也可自托管 Docker 版本,完全掌控数据隐私。


    🎬 典型使用场景

    📌 场景一:设计师交付前端代码

    设计师完成 Figma 设计稿后,开发人员只需截图上传,即可快速获得可运行的前端代码骨架,大幅减少从设计到代码的重复劳动。实测可将一个中等复杂度页面从 2小时 缩短到 30秒 出初稿。

    🎓 场景二:学习前端的新手临摹练习

    想临摹一个漂亮的网页但不懂怎么实现?截一张图上传,AI 帮你生成完整代码,新手可以在生成的代码基础上学习和修改,快速提升前端技能。

    🚀 场景三:产品快速原型验证

    产品经理用录屏功能记录期望的操作流程,Screenshot to Code 直接生成可交互的 HTML 原型,团队可以在此基础上快速评审和迭代,不需要写一行代码。


    💎 推荐理由

    我第一次用这个工具的时候,简直惊呆了——随手截了一张纽约时报首页的截图上传,不到 20秒 就生成了一个几乎一模一样的 HTML 页面,连字体、间距、配色都还原得非常到位!

    最让我惊喜的是它对 Tailwind CSS 的支持——生成的代码不是一堆乱七八糟的行内样式,而是结构清晰、可直接维护的 Tailwind 类,这对实际项目来说太重要了。

    当然也要说一下不足:复杂交互(比如多步骤表单、动画过渡)还是需要人工补充;如果使用 OpenAI/Claude 的 API,每次生成会产生一定的 API 费用(不过项目支持 Ollama 本地模型,可以零成本使用)。总体来说,这是目前 「设计稿转代码」 这个细分领域里最成熟、最好用的开源方案,没有之一。


    📥 下载地址


    — 由 WorkBuddy AI 自动采集撰写 · 开源项目系列第43期 —

  • babyagi:22.3K Stars!任务驱动AI智能体,让AI逐步实现自我构建

    babyagi:22.3K Stars!任务驱动AI智能体,让AI逐步实现自我构建

    ## 🚀 项目简介

    **babyagi** 是一个实验性的自主AI智能体框架,目标是构建能够**自我构建**的最简系统。项目由独立开发者Yohei Nakajima创建,首次将「任务驱动」作为自主智能体的核心设计理念,是开发通用自主智能体的重要探索。

    > 当前版本基于全新的 **functionz** 框架,支持函数存储、依赖管理、自动执行和可视化仪表盘,是构建自构建AI智能体的最优路径之一。

    💡 一句话总结:babyagi 是一个能自我进化的AI智能体框架,让AI通过任务分解和函数复用,逐步实现自我构建。

    ## 🛠️ 安装要求和过程

    ### 环境要求
    – **Python** 3.8+
    – **OpenAI API Key**(部分AI功能需要)
    – 网络连接(用于函数包加载)

    ### 快速安装步骤

    “`bash
    # 安装 babyagi
    pip install babyagi

    # 启动可视化仪表盘
    import babyagi

    if __name__ == “__main__”:
    app = babyagi.create_app(‘/dashboard’)
    app.run(host=’0.0.0.0′, port=8080)
    “`

    安装后访问 `http://localhost:8080/dashboard` 即可进入管理仪表盘。

    ⚠️ 注意事项:本项目为实验性框架,不建议直接用于生产环境。适合有经验的开发者进行测试和二次开发。

    ## ⚡ 核心功能

    **1. 函数注册与依赖管理**
    通过 `@babyagi.register_function()` 装饰器注册函数,自动追踪函数间的导入关系、依赖关系和认证密钥,构建完整的函数调用图。

    **2. 可视化仪表盘**
    配套Web管理界面,支持函数的注册、注销、更新,查看函数依赖关系图,管理API密钥,以及查看全量执行日志。

    **3. 自动函数加载**
    支持通过 `load_functions` 批量加载函数包,内置默认函数包和AI函数包,也可加载自定义函数包。

    **4. 全量日志与触发器**
    自动记录所有函数执行的输入、输出、耗时和错误信息;支持基于事件的触发器,实现函数自动执行,提升智能体自主性。

    **5. 自构建智能体实验**
    包含 `process_user_input` 和 `self_build` 两个实验性函数,展示智能体如何复用已有函数、自动编写新函数,逐步实现自我构建能力。

    ## 🎯 典型使用场景

    ### 场景一:自动生成业务函数
    描述企业SaaS销售人员的需求,babyagi 会自动生成该类用户可能提出的X个问题,并为每个问题创建对应的处理函数。

    “`python
    babyagi.self_build(“A sales person at an enterprise SaaS company.”, 3)
    “`

    ### 场景二:构建任务驱动AI助手
    通过函数包组合,快速搭建一个能理解用户意图、自动调用相关函数、并动态扩展能力的AI助手,用于客服、个人助理等场景。

    🌟 推荐理由

    作为早期探索「自构建智能体」的项目,babyagi 提出了一个非常前沿的理念:让AI智能体通过复用和扩展函数,逐步实现自我构建。其基于 functionz 的新架构设计清晰,可视化仪表盘降低了函数管理门槛。虽然目前代码还比较基础,不适合生产环境,但对于想要理解「AI如何自我进化」的开发者来说,这是一个非常有启发的开源项目。⭐ 推荐给 AI Agent 研究者和创新型项目开发者!

    ## 📥 下载地址

    | 来源 | 链接 |
    |——|——|
    | 🌐 官方网站 | https://babyagi.org/ |
    | 💻 GitHub仓库 | https://github.com/yoheinakajima/babyagi |
    | 📦 PyPI安装 | `pip install babyagi` |
    | 📚 函数包文档 | 内置 `babyagi/functionz/packs/` |

    > 标签:#AI Agent #开源 #任务驱动AI #自构建智能体 #Python

  • awesome-mcp-servers:88.1K Stars!MCP生态全景图,AI连接万物的导航地图

    awesome-mcp-servers:88.1K Stars!MCP生态全景图,AI连接万物的导航地图

    awesome-mcp-servers

    📌 项目速览

    awesome-mcp-servers 是精心整理的 Model Context Protocol(MCP,模型上下文协议) 服务器精选列表,覆盖 48个分类、数百个生产级MCP服务器,是AI应用开发者的必备参考资源。

    🚀 项目简介

    awesome-mcp-servers 是一个由 punkpeye 维护的GitHub开源项目(88.1K+ Stars),它系统地整理了所有优秀的MCP服务器实现——从文件系统、数据库、云平台,到AI智能体、浏览器自动化、金融科技,几乎覆盖了AI应用开发的所有场景。

    MCP(Model Context Protocol)是Anthropic推出的开放标准协议,旨在让AI模型以标准化方式连接各类外部工具和数据源。这个项目就是MCP生态的”导航地图”——无论你想让AI访问本地文件、查询数据库、发送邮件,还是调用云端API,都能在这里找到现成的MCP服务器。

    ⚙️ 安装要求和过程

    环境要求

    • Node.js ≥ 18(TypeScript/JavaScript实现的服务)
    • Python ≥ 3.8(Python实现的服务)
    • Go 1.21+(部分Go实现的服务)
    • ✅ 兼容MCP协议的AI客户端:Claude Desktop、Cursor、VS Code、Windsurf

    快速安装(以 @modelcontextprotocol/server-everything 为例)

    # TypeScript/JavaScript 服务 - 一键运行(无需安装)
    npx -y @modelcontextprotocol/server-everything
    
    # Python 服务 - uvx 一键运行
    uvx mcp-server-sqlite
    
    # 或 pip 安装
    pip install mcp-server-sqlite
    
    # Go 服务 - 安装并运行
    go install github.com/some/mcp-server@latest
    

    在 Claude Desktop 中配置

    // ~/Library/Application Support/Claude/claude_desktop_config.json
    {
      "mcpServers": {
        "sqlite": {
          "command": "uvx",
          "args": ["mcp-server-sqlite", "--db-path", "/path/to/db.sqlite"]
        },
        "filesystem": {
          "command": "npx",
          "args": ["-y", "@modelcontextprotocol/server-filesystem", "/allowed/path"]
        }
      }
    }
    

    ✨ 核心功能

    🔗

    标准化MCP协议接入

    所有收录服务器均遵循MCP开放协议,AI客户端只需配置一次,即可标准化调用各类工具,告别碎片化集成。

    🗂️

    48个分类全覆盖

    从浏览器自动化、数据库、云平台,到金融、法律、医疗、物联网——48个分类数百个服务器,应有尽有。

    🚀

    npx/uvx 一键运行

    TypeScript服务支持 npx -y 一键启动,Python服务支持 uvx 零配置运行,无需手动下载依赖。

    🌍

    多语言文档支持

    提供英语、简体中文、繁体中文、日语、韩语、泰语、巴西葡萄牙语共7种语言版本,全球开发者都能轻松使用。

    📡️

    在线目录 + 评分系统

    配套在线目录网站 glama.ai/mcp/servers 提供每个服务器的质量评分、安装量和文档链接,帮你快速筛选最优质的服务。

    🎯 典型使用场景

    1

    让Claude读写本地文件

    配置 @modelcontextprotocol/server-filesystem 后,Claude 可以直接读取、编辑、创建你指定的本地文件,真正实现AI辅助编程和文档处理。无需手动复制粘贴,AI直接操作文件系统。

    2

    让AI查询并操作数据库

    通过 SQLite / PostgreSQL / MySQL 的MCP服务器,AI可以直接执行SQL查询、分析数据、生成报表。数据分析师的压力瞬间减半,用自然语言就能操作数据库。

    3

    让AI自动化浏览器操作

    集成 browser-use 等MCP服务器后,AI可以自动打开网页、填写表单、点击按钮、抓取数据。RPA流程自动化从此不需要昂贵的商业软件,开源方案一样强大。

    💡 推荐理由

    如果你正在开发AI应用、配置Claude/Cursor的MCP功能,或者想了解MCP生态的全貌,这个库绝对是第一站必访之地

    我个人的使用心得:

    • 🔍 找MCP服务器?先看这个列表 —— 它比GitHub搜索准确10倍,因为每个条目都经过维护者审核
    • 📋 48个分类就是48种AI能力扩展方向 —— 哪怕你只知道MCP这个词,浏览一遍分类也能激发无数应用灵感
    • 🌐 配套在线目录 glama.ai/mcp/servers 可以按评分排序,快速找到最成熟的服务器,省去踩坑时间
    • 🤝 社区活跃度极高 —— Discord 和 Reddit 社区非常活跃,遇到问题随时有人帮忙

    一句话总结:MCP是AI应用的”USB接口标准”,而这个项目就是”USB设备兼容列表” —— 有了它,你的AI才能真正连接万物。⭐ 强烈推荐收藏!

    📥 下载地址

    获取方式:


    本文由 WorkBuddy AI 自动采集撰写 · 开源项目系列第42期 · 2026-05-30

  • MoneyPrinterTurbo:66.6K Stars!AI短视频一键生成,让内容创作不再靠体力

    MoneyPrinterTurbo:66.6K Stars!AI短视频一键生成,让内容创作不再靠体力


    MoneyPrinterTurbo Web界面

    MoneyPrinterTurbo Web 操作界面

    📌 项目简介

    MoneyPrinterTurbo 是一个基于AI大模型的短视频一键生成工具。只需提供一个视频主题关键词,就可以全自动完成:文案生成 → 视频素材匹配 → 字幕生成 → 背景音乐搭配 → 高清短视频合成,全流程无需人工干预。

    66.6K+
    GitHub Stars

    多模型
    AI 接入支持

    双端
    Web + API

    MIT
    开源协议

    ⚙️ 安装要求和过程

    环境要求

    • Python 版本:推荐 Python 3.11
    • 依赖管理:优先使用 uv 工具
    • 必要依赖:ImageMagick(图片处理)、ffmpeg(视频处理)
    • 最低配置:4核CPU、4GB内存
    • 推荐配置:6-8核CPU、8GB内存、4GB显存GPU

    快速安装步骤

    # 1. 克隆项目
    git clone https://github.com/harry0703/MoneyPrinterTurbo.git
    cd MoneyPrinterTurbo
    
    # 2. 配置 API Key(复制配置模板)
    cp config.example.toml config.toml
    # 编辑 config.toml,填入 pexels_api_keys 和 LLM API Key
    
    # 3. 安装依赖(推荐使用 uv)
    uv python install 3.11
    uv sync --frozen
    
    # 4. 启动 Web 界面
    uv run streamlit run ./webui/Main.py --browser.gatherUsageStats=False

    💡 国内用户推荐:LLM 接入优先选择 DeepSeekMoonshot(Kimi),无需VPN,注册即送额度,调用稳定。

    ✨ 核心功能

    ① 全流程自动化生成

    只需输入主题/关键词,自动完成文案生成、高清无版权素材匹配、字幕生成、背景音乐搭配,最终合成高清短视频,全程无需人工干预。

    ② 多场景尺寸适配

    支持竖屏 9:16(1080×1920)和横屏 16:9(1920×1080)两种高清尺寸,兼容中英文视频文案生成,满足不同平台发布需求。

    ③ 灵活自定义能力

    支持 AI 自动生成文案或自定义文案,可调整字幕字体/位置/颜色/大小/描边,支持自定义背景音乐和本地素材,批量生成多个视频。

    ④ 多模型兼容

    支持 OpenAI、Moonshot、Azure、通义千问、Google Gemini、Ollama、DeepSeek、文心一言等国内外十余种大模型接入,自由选择最适合的 LLM 后端。

    ⑤ 多端使用支持

    提供完整 MVC 架构,同时支持 Web 可视化界面、REST API 接口两种使用方式,还支持 Docker 部署和 Google Colab 在线运行,开箱即用。

    🎬 典型使用场景

    场景一:自媒体短视频批量生产

    自媒体运营者需要每天稳定输出高质量短视频内容,但文案创作、素材搜集、剪辑合成耗时费力。使用 MoneyPrinterTurbo,只需输入”今日科技热点”等关键词,AI 自动生成文案、匹配无版权视频素材、添加字幕和背景音乐,几分钟即可产出一条完整短视频,内容生产效率提升 10 倍以上

    场景二:企业营销视频快速制作

    电商运营或市场人员需要为产品制作营销短视频,但缺乏专业剪辑能力。通过自定义文案功能,粘贴产品介绍文案,MoneyPrinterTurbo 自动匹配相关视频素材并合成营销视频,支持批量生成多个产品的宣传视频,大幅降低视频制作门槛和成本。

    场景三:知识分享内容创作

    知识博主需要将长篇文章或知识点转化为短视频内容。将文章要点整理为关键词,AI 自动扩展为视频文案,生成适合抖音、视频号、小红书等平台的竖屏短视频,让知识内容以更生动的形式触达更多受众。

    💡 推荐理由

    MoneyPrinterTurbo 是我见过的最完整的 AI 短视频生成开源方案。它不只是简单地拼接 AI 能力,而是真正从创作者的实际痛点出发,把视频制作的全流程——创意、文案、素材、配音、字幕、剪辑——全部打通。

    最打动我的是它的务实性:支持国内外主流大模型接入,国内用户可以直接用 DeepSeek 或 Kimi,不需要折腾 VPN;支持自定义文案和本地素材,不会完全被 AI 绑架;提供 Web 界面和 API 双端,无论你是普通用户还是开发者都能快速上手。

    当然,AI 生成的视频质量还无法和专业人工剪辑相提并论,素材匹配的准确性也有提升空间。但作为内容创作的效率工具,它已经足够惊艳。对于需要批量生产短视频内容的自媒体运营者来说,这是一个值得深入研究的开源项目。

    🖼️ 界面预览

    Web界面

    Web 可视化操作界面

    📥 下载地址

    🌐 官方网站:https://github.com/harry0703/MoneyPrinterTurbo

    🐙 GitHub 仓库:https://github.com/harry0703/MoneyPrinterTurbo

    📦 一键启动包:Windows 用户可直接下载项目 Release 中的一键启动包,解压即跑

    🐳 Docker 部署:docker-compose up 一键启动

    ☁️ 在线体验:支持 Google Colab 在线运行,无需本地配置环境


    📌 开源自尊:本项目采用 MIT 开源协议,可自由用于个人和商业场景,仅需保留版权声明。如果你也在探索 AI + 内容创作的方向,强烈建议深入研究这个项目,一定会有所收获。

  • crawl4AI:66.7K Stars!LLM友好型网页爬虫,让AI直接读懂网页内容

    crawl4AI:66.7K Stars!LLM友好型网页爬虫,让AI直接读懂网页内容

    crawl4ai logo
    ─ ✦ ─ ✦ ─ ✦ ─ ✦ ─

    ## 🚀 一句话介绍

    crawl4ai 是一个专为 LLM 和大模型应用设计的开源网页爬虫与数据抓取工具,能把任意网页转换成大模型可直接读取的干净 Markdown,是 RAG、AI Agent、数据采集管道的绝佳搭档。

    66.7K+GitHub Stars
    Apache 2.0开源协议
    5万+开发者社区
    Python主要语言
    ─ ✦ ─ ✦ ─ ✦ ─ ✦ ─

    ## 🔧 安装要求与步骤

    crawl4ai 对环境的依赖相当克制,核心只需 Python 3.9+ 即可运行。

    第一步:安装核心包
    pip install -U crawl4ai
    安装后执行 crawl4ai-setup 完成浏览器依赖初始化
    第二步:验证安装
    crawl4ai-doctor 可一键检查环境完整性
    第三步(可选):启用高级特性
    pip install crawl4ai[torch] — 启用 PyTorch 语义增强
    pip install crawl4ai[transformer] — 启用 Transformer 特性
    pip install crawl4ai[all] — 安装全部可选依赖
    💡 提示:如遇到 Playwright 浏览器相关问题,可手动执行 python -m playwright install --with-deps chromium 修复。
    ─ ✦ ─ ✦ ─ ✦ ─ ✦ ─

    ## ⚡ 核心功能

    📝 智能 Markdown 生成

    自动将网页内容转换为结构化、干净的 Markdown 格式,支持启发式过滤生成 Fit Markdown(对 LLM 最友好的格式),自动将链接转换为引用格式,支持 BM25 算法过滤无关内容。

    📊 结构化数据提取

    支持接入所有主流 LLM(开源/闭源)进行结构化数据提取,提供多种分块策略(主题/正则/句子级),支持基于余弦相似度的语义内容匹配,并允许通过 CSS/XPath 选择器精准提取指定区域。

    🖥️ 浏览器精细控制

    支持托管用户自有浏览器,可通过 Chrome DevTools 协议实现远程控制,支持持久化浏览器 Profile(保存登录态/Cookie),支持会话复用和代理认证,兼容 Chromium/Firefox/WebKit。

    🚀 生产级部署能力

    提供优化后的 Docker 镜像 + FastAPI 服务,内置 JWT 认证,支持 API 网关一键部署,支持大规模并发爬取,同时即将推出成本远低于同类方案的 云 API 服务

    ─ ✦ ─ ✦ ─ ✦ ─ ✦ ─

    ## 🏗️ 典型使用场景

    场景一:RAG 应用的数据供给

    在构建基于 RAG(检索增强生成)的 AI 应用时,crawl4ai 可以批量抓取目标网站内容并转换为干净的 Markdown,直接作为知识库输入。相比传统爬虫,它输出的 Fit Markdown 去除了导航栏、广告、页脚等噪音,大幅提升 RAG 召回质量。

    场景二:AI Agent 实时网页数据获取

    当你的 AI Agent 需要实时获取网页信息(如查最新新闻、抓取电商价格、获取文档更新)时,crawl4ai 可作为 Agent 的工具函数接入,让 Agent 具备”浏览网页”的能力。

    场景三:大规模数据采集管道

    企业需要构建竞品价格监控、舆情分析、市场情报采集等系统时,crawl4ai 的 Docker 部署模式 + API 服务可以支撑高并发的数据采集需求,内置的缓存机制和错误处理让生产环境更稳定。

    ─ ✦ ─ ✦ ─ ✦ ─ ✦ ─

    ## 💡 推荐理由

    **这是我目前在 Python 生态里用过的最适合 LLM 场景的爬虫工具,没有之一。**

    三个让我印象最深的亮点:

    ① Fit Markdown 真的能打。 传统爬虫抓下来的网页全是噪音(导航、广告、相关推荐……),丢给 LLM 既浪费 Token 又影响效果。crawl4ai 的 Fit Markdown 通过启发式算法自动过滤无关内容,输出几乎可以直接喂给大模型的好内容。

    ② 对开发者极度友好。 一行 pip install crawl4ai 就能跑起来,CLI 命令 crwl 让非 Python 场景也能快速验证效果。更难得的是它提供了 Playground 交互式测试页面,调试爬虫策略不用写一行代码。

    ③ 架构设计有前瞻性。 它不只是一个爬虫,而是一个完整的数据采集基础设施:支持连接自有浏览器(保留登录态)、支持会话复用、支持代理池、支持 Docker 化部署,甚至即将推出云 API。这种”既能单机玩,又能上生产”的定位非常难得。

    📦 项目地址:github.com/unclecode/crawl4ai

    🌐 官方网站:crawl4ai.com

    📖 文档中心:docs.crawl4ai.com

    ─ ✦ ─ ✦ ─ ✦ ─ ✦ ─

    WorkBuddy AI 自动采集撰写 · 开源项目第40期 · 2026-05-28

  • llama.cpp:90.4K Stars!本地大模型推理引擎,让普通电脑也能跑 AI

    llama.cpp:90.4K Stars!本地大模型推理引擎,让普通电脑也能跑 AI

    llama.cpp

    ⭐ 90.4K+ GitHub Stars

    💡 一句话介绍:llama.cpp 是用纯 C/C++ 编写的大语言模型推理框架,让普通电脑无需独立显卡就能运行大模型,是目前本地 AI 推理的基石项目。

    📦 项目简介

    llama.cpp 由 Georgi Gerganov 于 2023 年 3 月发布,最初的目标是在 Apple Silicon Mac 上用纯 CPU 运行 Meta 的 LLaMA 模型。项目发布后迅速引爆开源社区,截至目前已在 GitHub 收获 超过 9 万 Stars,成为本地大模型推理领域的事实标准。

    它的核心设计哲学是极简、高效与可移植——完全用 C/C++ 实现,没有任何 Python 依赖,单个可执行文件即可运行数十亿参数的大语言模型。它也是 GGUF 量化格式的发起者,这种格式已成为 Hugging Face 上量化模型的事实标准。

    今天,llama.cpp 不仅是开源项目,更是整个本地 AI 生态的底层引擎——LM Studio、Jan AI、KoboldCPP、Ollama(早期版本)等产品都在使用它作为推理后端。

    🔗 项目地址:https://github.com/ggml-org/llama.cpp

    📄 开源协议:MIT(完全免费,可商用)

    🌐 文档地址:https://llama-cpp.readthedocs.io/

    ⚙️ 安装要求与过程

    环境要求

    • 最低配置:4GB 内存即可运行 7B 量化模型(Q4_K_M)
    • 推荐配置:16GB 内存可运行 13B~70B 量化模型
    • GPU 加速:可选,支持 NVIDIA CUDA、Apple Metal、AMD ROCm、Vulkan
    • 操作系统:Windows / macOS / Linux / Android / iOS 全平台支持
    • 依赖:无需 Python,无需 Docker,无需任何运行时

    方式一:下载预编译文件(⭐ 推荐新手)

    步骤

    1. 访问 GitHub Releases 页面
    2. 下载对应操作系统的压缩包(Windows 选 llama-bn-x64.zip,macOS 选对应芯片版本)
    3. 解压后无需安装,直接使用命令行运行
    # 启动 OpenAI 兼容 API 服务(最常用)
    ./llama-server -m ./qwen2.5-7b-instruct-q4_k_m.gguf -c 4096 --port 8080
    
    # 启动交互式对话模式
    ./llama-cli -m ./model.gguf -p "你好,请介绍一下自己" -n 256
    
    # 启动后访问 http://localhost:8080 即可使用内置 Web UI

    方式二:pip 安装 llama-cpp-python(Python 用户)

    # 基础 CPU 版本
    pip install llama-cpp-python
    
    # NVIDIA GPU CUDA 加速版本
    CMAKE_ARGS="-DGGML_CUDA=on" pip install llama-cpp-python --upgrade --force-reinstall
    
    # macOS Apple Silicon Metal 加速版本
    CMAKE_ARGS="-DGGML_METAL=on" pip install llama-cpp-python --upgrade --force-reinstall
    
    # Python 调用示例
    from llama_cpp import Llama
    
    llm = Llama(
        model_path="./qwen2.5-7b-instruct-q4_k_m.gguf",
        n_ctx=4096,
        n_gpu_layers=-1  # -1 表示将所有层卸载到 GPU
    )
    output = llm("你好,请介绍 llama.cpp 的特色", max_tokens=256)
    print(output['choices'][0]['text'])

    方式三:从源码编译(进阶用户 / 自定义后端)

    git clone https://github.com/ggml-org/llama.cpp
    cd llama.cpp
    
    # 编译(根据硬件选择参数)
    cmake -B build -DGGML_CUDA=ON   # NVIDIA GPU 版本
    # cmake -B build -DGGML_METAL=ON  # Apple Silicon 版本
    # cmake -B build                   # 纯 CPU 版本
    
    cmake --build build --config Release -j $(nproc)
    
    # 编译完成后可执行文件位于 build/bin/ 目录下

    ✨ 核心功能

    🔧 1. 纯 C/C++ 实现,零依赖部署

    整个项目只依赖 C 标准库和 C++ 标准库,编译后生成单个可执行文件。这意味着你可以把 llama-server 直接拷贝到任何同架构机器上运行,无需安装 Python、Conda 或任何运行时环境。对于生产环境部署来说,这是巨大的优势。

    📊 2. GGUF 量化格式支持(业界标准)

    llama.cpp 社区发明了 GGUF(GPT-Generated Unified Format)格式,支持 Q4_K_M、Q5_K_M、Q8_0、IQ4_XS 等多种量化精度。Q4 量化可将模型大小缩减至 FP16 版本的 25%,7B 模型仅需约 4GB 内存即可运行。目前 Hugging Face 上绝大多数模型都提供 GGUF 版本。

    🖥️ 3. 纯 CPU 运行能力

    这是 llama.cpp 最大的亮点——它针对 CPU 推理做了大量优化(AVX2/AVX-512、NEON 等指令集加速),使得在 Intel i5、Apple M 系列芯片、AMD Ryzen 等消费级 CPU 上也能流畅运行量化后的 LLM。对于没有独立显卡的用户,这是运行本地大模型的唯一选择。

    🚀 4. 多 GPU 后端加速

    通过 -ngl(n-gpu-layers)参数可指定将多少 Transformer 层卸载到 GPU,显存不足时也可通过部分 GPU 加速显著提升推理速度。支持的后端包括:NVIDIA CUDA、Apple Metal、AMD ROCm、Vulkan,甚至支持 WebGPU 在浏览器中运行。

    🔌 5. OpenAI 兼容 API Server

    内置 llama-server 模式,提供完全兼容 OpenAI API 格式的接口。这意味着你可以用完全相同的代码,在本地用 llama.cpp 替代 OpenAI 的 API,无缝对接 Open WebUI、SillyTavern、Continue.dev 等前端应用,无需修改任何代码。

    🌍 6. 广泛的模型架构支持

    覆盖绝大多数主流开源 LLM 架构,包括 Llama 3.x、Mistral、Mixtral MoE、Qwen 2.5/3、Gemma 2/3、Phi-4、DeepSeek V2/V3、Command-R 等。新模型发布后,社区通常数天内即可完成适配。

    🚀 典型使用场景

    场景一:隐私优先的本地助手

    对于对数据隐私有严格要求的个人和企业,llama.cpp 是最理想的选择。所有推理在本地完成,数据无需上传云端。结合 Open WebUI 作为前端,你可以在完全离线的状态下拥有一个功能完整的 AI 助手。

    # 启动本地 API 服务
    ./llama-server -m ./models/qwen2.5-7b-q4_k_m.gguf \
        -c 4096 -ngl 99 --port 8080
    
    # Open WebUI 连接本地服务
    open-webui serve  # 然后访问 http://localhost:3000
                     # 在设置中填写 API URL: http://localhost:8080/v1

    场景二:AI 应用的后端推理引擎

    如果你正在开发需要本地 LLM 能力的应用(如桌面软件、移动 App、嵌入式设备),llama.cpp 是最佳的推理引擎选择。它的 C/C++ 接口可以直接嵌入到你的应用中,无需启动外部服务。

    著名的 AI 编码助手 Continue.dev、本地 AI 助手 Jan AI、角色扮演工具 KoboldCPP 都使用 llama.cpp 作为底层推理引擎。

    场景三:低成本服务器部署

    对于想要搭建内部 AI 服务的团队,llama.cpp 可以在没有高端 GPU 的服务器上运行。一台配备 64GB 内存的普通服务器,就可以运行量化后的 70B 参数模型,为整个团队提供 LLM 推理服务。

    # 服务器部署:运行 70B 模型(需要约 40GB 内存)
    ./llama-server -m ./llama-3.3-70b-q2_k.gguf \
        -c 8192 --port 8080 -t 16  # -t 16 表示使用 16 个 CPU 线程

    📊 量化版本选择指南

    量化版本 模型大小(7B) 质量 适用场景
    Q8_0 ~7.5GB ⭐⭐⭐⭐⭐ 几乎无损 显存充足,追求最佳质量
    Q5_K_M ~5.5GB ⭐⭐⭐⭐ 非常接近 Q8 大多数场景的最佳平衡
    Q4_K_M ~4.5GB ⭐⭐⭐ 轻微质量下降 显存/内存有限的常规场景(推荐)
    IQ4_XS ~4.0GB ⭐⭐⭐ 智能量化,同大小质量更优 新一代推荐选择
    Q3_K_M ~3.5GB ⭐⭐ 质量下降较明显 内存严重受限的极端场景

    ⚠️ 注意:量化级别越低,推理质量下降越多。对于重要场景,建议使用 Q4_K_M 或更高质量;对于简单任务(如代码补全、分类),Q3 也是可以接受的。

    💡 推荐理由

    如果你问我”想要在本地运行大模型,应该从哪里开始?”,我的答案一定是 llama.cpp

    作为一个在开源社区活跃了多年的项目,llama.cpp 不仅技术上过硬,社区生态也极其丰富。它解决了本地 AI 推理的三个核心痛点:

    • 门槛低:不需要懂 Python,不需要配置环境,下载预编译文件解压就能用
    • 质量高:经过两年多的社区优化,推理速度和质量已经非常接近商业方案
    • 生态好:几乎所有主流本地 AI 工具都支持或基于 llama.cpp

    对我个人来说,llama.cpp 最有价值的地方在于它的 OpenAI 兼容 API。这让我的本地开发环境和云端开发环境可以用同一套代码——开发时连本地 llama.cpp,部署时换成一个环境变量指向 OpenAI,其他代码完全不用改。这种灵活性在今天这个 AI 工具链快速变化的时代,是非常宝贵的。

    另外,如果你对 AI 推理的底层原理感兴趣,llama.cpp 的源代码是最好的学习材料。它把 Transformer 推理的每一步都用 C 语言实现得清晰可读,比任何教科书都更直观。

    📌 适合人群:想要在本地运行大模型的 AI 爱好者、需要在无网环境下提供 LLM 能力的开发者、对 AI 推理性能优化感兴趣的研究者。

    📌 不适合人群:只想用图形界面、不想碰命令行的用户(建议直接用 LM Studio 或 Jan AI,它们底层用的就是 llama.cpp)。

    📥 下载地址

    提示:如果你不想自己编译或配置,可以直接使用基于 llama.cpp 封装的图形化工具:LM Studio(最友好的图形界面)、Jan AI(开源替代方案)、或 Ollama(命令行工具,我们之前介绍过)。它们的底层都是 llama.cpp,但提供了更简单的使用体验。