标签: 大模型部署

  • Ollama:170k Stars!本地LLM运行工具,让AI模型在本地飞速运行

    配图

    Ollama Logo
    Ollama – 本地LLM运行工具

    项目简介

    Ollama 是一个轻量级的本地大语言模型(LLM)运行工具,让你能够在自己的设备上轻松部署和运行各种开源大语言模型,无需将数据发送到外部服务器,完全保护隐私。

    截至2026年,Ollama 已在 GitHub 获得 17万+ Stars,成为最广泛使用的本地LLM运行时,Docker Hub下载量超过1亿次。

    安装要求和过程

    环境要求

    • 操作系统:Linux(Ubuntu 20.04+)、macOS 11+、Windows 10(需WSL2)
    • 内存:8GB以上(运行7B模型),16GB以上(运行13B模型),32GB以上(运行33B+模型)
    • 存储:至少10GB可用空间(用于存放模型文件)
    • GPU:可选,NVIDIA GPU(CUDA)、AMD GPU(ROCm)或苹果M系列芯片可加速推理

    快速安装步骤

    macOS/Linux 一键安装:

    # Linux/macOS
    curl -fsSL https://ollama.com/install.sh | sh
    
    # macOS 也可用 Homebrew
    brew install ollama

    Windows 安装:

    1. 访问 https://ollama.com/download 下载 Windows 安装包
    2. 运行 OllamaSetup.exe,按照提示完成安装
    3. 打开命令提示符或PowerShell,输入 ollama --version 验证安装

    Docker 安装(推荐服务器环境):

    docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

    核心功能

    1. 一键运行本地模型:支持一键拉取和运行100+开源大语言模型,包括 Llama 3.3、Mistral、Qwen、Phi、DeepSeek R1 等热门模型。
    2. OpenAI API 兼容:原生提供兼容 OpenAI API 格式的 REST API(默认端口11434),可直接对接现有基于 OpenAI 生态开发的应用和工具。
    3. 智能硬件加速:自动适配 NVIDIA(CUDA)、AMD(ROCm)、苹果 M 系列芯片(Metal)的 GPU 加速,大幅提升推理速度。
    4. 模型自定义配置:支持通过 Modelfile 自定义模型参数(温度、上下文长度、系统提示词等),轻松创建专属模型。
    5. 多模态支持:最新版本支持视觉模型(如 Llama 3.2 Vision),可处理图像输入,实现图文混合推理。

    典型使用场景

    场景一:开发者本地 AI 应用开发

    作为开发者,你可以使用 Ollama 在本地运行 LLM,用于:

    • 开发和测试 AI 应用,无需支付 API 费用
    • 对接 Open-WebUI 等前端界面,搭建私有化 AI 聊天助手
    • 通过 API 集成到自己的应用中,实现本地智能推理

    示例:用 Ollama 运行 Llama 3.3 8B 模型,通过 OpenAI 兼容 API 为本地应用添加 AI 能力。

    场景二:企业私有化部署

    对于企业用户,Ollama 提供了:

    • 数据隐私保护:所有推理过程在本地完成,敏感数据无需上传云端
    • 零 API 成本:无需为每次 API 调用付费,适合高频调用场景
    • 离线可用:模型下载后,无需联网即可使用,适合内网环境

    推荐理由

    我个人从2025年开始使用 Ollama,它已经成为我本地 AI 开发的标配工具。推荐理由如下:

    1. 极简体验:一条命令就能安装,一条命令就能运行模型,对新手极其友好。
    2. 生态丰富:支持对接 Open-WebUI、Continue(VS Code 插件)、LangChain 等50+主流工具,可玩性极高。
    3. 性能优秀:支持 4-bit/8-bit 量化,即使在中端笔记本上也能流畅运行 7B 参数的模型。
    4. 活跃社区:GitHub 上40000+社区集成,几乎任何你能想到的工作流,都有人已经做好了集成方案。

    如果你想要一个简单、快速、隐私安全的本地 LLM 运行方案,Ollama 绝对是首选。

    下载地址

  • vLLM:82.1k Stars!高性能LLM推理引擎,让大模型部署又快又省

    vLLM:82.1k Stars!高性能LLM推理引擎,让大模型部署又快又省





    vLLM:82.1k Stars!高性能LLM推理引擎,让大模型部署又快又省

    配图

    vLLM Logo

    项目简介

    vLLM 是一个面向所有人的易用、快速、低成本的LLM服务引擎,提供高吞吐量、内存高效的推理能力,让大语言模型的生产部署变得简单高效。

    安装要求和过程

    环境要求

    • 操作系统:Linux(推荐)或 macOS
    • Python:3.8 – 3.12
    • GPU:NVIDIA GPU(CUDA 7.0+)或 AMD GPU(ROCm 5.6+)
    • CPU:x86、ARM 或 PowerPC(支持 CPU 推理)

    快速安装步骤

    方法一:使用 uv 安装(推荐)

    uv pip install vllm
        

    方法二:使用 pip 安装

    pip install vllm
        

    方法三:从源码构建

    git clone https://github.com/vllm-project/vllm.git
        cd vllm
        pip install -e .
        

    验证安装

    python -c "import vllm; print(vllm.__version__)"
        

    核心功能

    1. 业界领先的推理吞吐量
      基于 PagedAttention 技术高效管理注意力键值内存,支持连续批处理、分块预填充、前缀缓存等优化技术,单GPU即可实现超高并发推理服务。
    2. 丰富的量化方案支持
      原生支持 FP8、MXFP8/MXFP4、NVFP4、INT8、INT4、GPTQ/AWQ、GGUF 等多种量化格式,在保证模型质量的同时大幅降低显存占用和推理延迟。
    3. 无缝的 Hugging Face 集成
      直接加载 Hugging Face 上 200+ 模型架构,包括 Llama、Qwen、Gemma、Mixtral、DeepSeek-V3 等热门模型,无需任何适配代码。
    4. 分布式推理支持
      支持张量并行、流水线并行、数据并行、专家并行、上下文并行,可轻松扩展到大模型多卡、多机部署场景。
    5. 多模态模型支持
      不仅支持纯文本LLM,还支持 LLaVA、Qwen-VL、Pixtral 等多模态模型,满足图文理解、视觉问答等复杂场景需求。

    典型使用场景

    场景一:企业级大模型API服务

    某 AI 创业公司需要将 Qwen2.5-72B 模型部署为 OpenAI 兼容的 API 服务,供前端应用调用。

    解决方案:使用 vLLM 启动兼容 OpenAI API 的服务器,仅需一行命令:

    vllm serve Qwen/Qwen2.5-72B-Instruct --tensor-parallel-size 4
        

    启动后自动提供与 OpenAI 完全兼容的 API,现有代码无需修改即可切换到底层模型,同时享受 vLLM 带来的 3-5倍吞吐量提升。

    场景二:本地开发与环境测试

    开发者需要在本地机器上快速测试不同 LLM 的能力,评估哪个模型最适合自己的应用场景。

    解决方案:使用 vLLM 的 Python API 或 LLM 类,像使用 transformers 一样简单:

    from vllm import LLM, SamplingParams
        
        # 初始化模型
        llm = LLM(model="meta-llama/Llama-3.1-8B-Instruct")
        
        # 设置生成参数
        params = SamplingParams(temperature=0.7, max_tokens=256)
        
        # 批量推理
        prompts = ["解释量子计算", "写一个快速排序"]
        outputs = llm.generate(prompts, params)
        
        for output in outputs:
            print(output.prompt, output.outputs[0].text)
        

    推荐理由

    作为一名经常需要部署和测试大模型的开发者,vLLM 已经成为我工具箱里不可或缺的利器。之前每次部署新模型都要折腾好几天,要么显存不够,要么吞吐量上不去,要么就是跟各种推理框架的适配问题。

    vLLM 最大的价值在于它真的能做到开箱即用。你从 Hugging Face 上找到的模型,基本上扔给 vLLM 就能跑,不用自己写适配代码,不用深入研究模型架构。特别是它的 PagedAttention 技术,真的把显存利用率拉满了,同样一张 A100,用 vLLM 能服务的并发请求数是之前的好几倍。

    另外很赞的一点是它的量化支持特别全面。现在模型越来越大,不量化根本跑不起来。vLLM 支持的量化格式特别多,AWQ、GPTQ、GGUF 这些主流的都有,而且量化后的精度损失控制得很好,实际业务里基本感觉不出来。

    如果你正在做 LLM 相关的项目,不管是创业做 AI 产品,还是企业里搭私有化部署,vLLM 都值得一试。它现在基本上是业界标准了,82.1k 的 Stars 不是白来的。

    下载地址


    如果你觉得这个项目有帮助,欢迎到 GitHub 上点个 Star,支持开源社区的发展!