标签：大模型部署

Ollama：170k Stars！本地LLM运行工具，让AI模型在本地飞速运行
配图

Ollama – 本地LLM运行工具

项目简介

Ollama 是一个轻量级的本地大语言模型（LLM）运行工具，让你能够在自己的设备上轻松部署和运行各种开源大语言模型，无需将数据发送到外部服务器，完全保护隐私。

截至2026年，Ollama 已在 GitHub 获得 17万+ Stars，成为最广泛使用的本地LLM运行时，Docker Hub下载量超过1亿次。

安装要求和过程

环境要求
- 操作系统：Linux（Ubuntu 20.04+）、macOS 11+、Windows 10（需WSL2）
- 内存：8GB以上（运行7B模型），16GB以上（运行13B模型），32GB以上（运行33B+模型）
- 存储：至少10GB可用空间（用于存放模型文件）
- GPU：可选，NVIDIA GPU（CUDA）、AMD GPU（ROCm）或苹果M系列芯片可加速推理
快速安装步骤

macOS/Linux 一键安装：
```
# Linux/macOS
curl -fsSL https://ollama.com/install.sh | sh

# macOS 也可用 Homebrew
brew install ollama
```
Windows 安装：
1. 访问 https://ollama.com/download 下载 Windows 安装包
2. 运行 OllamaSetup.exe，按照提示完成安装
3. 打开命令提示符或PowerShell，输入 ollama --version 验证安装
Docker 安装（推荐服务器环境）：
```
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
```
核心功能
1. 一键运行本地模型：支持一键拉取和运行100+开源大语言模型，包括 Llama 3.3、Mistral、Qwen、Phi、DeepSeek R1 等热门模型。
2. OpenAI API 兼容：原生提供兼容 OpenAI API 格式的 REST API（默认端口11434），可直接对接现有基于 OpenAI 生态开发的应用和工具。
3. 智能硬件加速：自动适配 NVIDIA（CUDA）、AMD（ROCm）、苹果 M 系列芯片（Metal）的 GPU 加速，大幅提升推理速度。
4. 模型自定义配置：支持通过 Modelfile 自定义模型参数（温度、上下文长度、系统提示词等），轻松创建专属模型。
5. 多模态支持：最新版本支持视觉模型（如 Llama 3.2 Vision），可处理图像输入，实现图文混合推理。
典型使用场景

场景一：开发者本地 AI 应用开发

作为开发者，你可以使用 Ollama 在本地运行 LLM，用于：
- 开发和测试 AI 应用，无需支付 API 费用
- 对接 Open-WebUI 等前端界面，搭建私有化 AI 聊天助手
- 通过 API 集成到自己的应用中，实现本地智能推理
示例：用 Ollama 运行 Llama 3.3 8B 模型，通过 OpenAI 兼容 API 为本地应用添加 AI 能力。

场景二：企业私有化部署

对于企业用户，Ollama 提供了：
- 数据隐私保护：所有推理过程在本地完成，敏感数据无需上传云端
- 零 API 成本：无需为每次 API 调用付费，适合高频调用场景
- 离线可用：模型下载后，无需联网即可使用，适合内网环境
推荐理由

我个人从2025年开始使用 Ollama，它已经成为我本地 AI 开发的标配工具。推荐理由如下：
1. 极简体验：一条命令就能安装，一条命令就能运行模型，对新手极其友好。
2. 生态丰富：支持对接 Open-WebUI、Continue（VS Code 插件）、LangChain 等50+主流工具，可玩性极高。
3. 性能优秀：支持 4-bit/8-bit 量化，即使在中端笔记本上也能流畅运行 7B 参数的模型。
4. 活跃社区：GitHub 上40000+社区集成，几乎任何你能想到的工作流，都有人已经做好了集成方案。
如果你想要一个简单、快速、隐私安全的本地 LLM 运行方案，Ollama 绝对是首选。

下载地址
- 官方网站：https://ollama.com
- GitHub 仓库：https://github.com/ollama/ollama
- 文档中心：https://github.com/ollama/ollama/blob/main/README.md
- 模型库：安装后运行 ollama pull <模型名> 即可拉取模型
2026年6月8日
vLLM：82.1k Stars！高性能LLM推理引擎，让大模型部署又快又省
vLLM：82.1k Stars！高性能LLM推理引擎，让大模型部署又快又省

配图

项目简介

vLLM 是一个面向所有人的易用、快速、低成本的LLM服务引擎，提供高吞吐量、内存高效的推理能力，让大语言模型的生产部署变得简单高效。

安装要求和过程

环境要求
- 操作系统：Linux（推荐）或 macOS
- Python：3.8 – 3.12
- GPU：NVIDIA GPU（CUDA 7.0+）或 AMD GPU（ROCm 5.6+）
- CPU：x86、ARM 或 PowerPC（支持 CPU 推理）
快速安装步骤

方法一：使用 uv 安装（推荐）
```
uv pip install vllm
    
```
方法二：使用 pip 安装
```
pip install vllm
    
```
方法三：从源码构建
```
git clone https://github.com/vllm-project/vllm.git
    cd vllm
    pip install -e .
    
```
验证安装
```
python -c "import vllm; print(vllm.__version__)"
    
```
核心功能
1. 业界领先的推理吞吐量
  基于 PagedAttention 技术高效管理注意力键值内存，支持连续批处理、分块预填充、前缀缓存等优化技术，单GPU即可实现超高并发推理服务。
2. 丰富的量化方案支持
  原生支持 FP8、MXFP8/MXFP4、NVFP4、INT8、INT4、GPTQ/AWQ、GGUF 等多种量化格式，在保证模型质量的同时大幅降低显存占用和推理延迟。
3. 无缝的 Hugging Face 集成
  直接加载 Hugging Face 上 200+ 模型架构，包括 Llama、Qwen、Gemma、Mixtral、DeepSeek-V3 等热门模型，无需任何适配代码。
4. 分布式推理支持
  支持张量并行、流水线并行、数据并行、专家并行、上下文并行，可轻松扩展到大模型多卡、多机部署场景。
5. 多模态模型支持
  不仅支持纯文本LLM，还支持 LLaVA、Qwen-VL、Pixtral 等多模态模型，满足图文理解、视觉问答等复杂场景需求。
典型使用场景

场景一：企业级大模型API服务

某 AI 创业公司需要将 Qwen2.5-72B 模型部署为 OpenAI 兼容的 API 服务，供前端应用调用。

解决方案：使用 vLLM 启动兼容 OpenAI API 的服务器，仅需一行命令：
```
vllm serve Qwen/Qwen2.5-72B-Instruct --tensor-parallel-size 4
    
```
启动后自动提供与 OpenAI 完全兼容的 API，现有代码无需修改即可切换到底层模型，同时享受 vLLM 带来的 3-5倍吞吐量提升。

场景二：本地开发与环境测试

开发者需要在本地机器上快速测试不同 LLM 的能力，评估哪个模型最适合自己的应用场景。

解决方案：使用 vLLM 的 Python API 或 LLM 类，像使用 transformers 一样简单：
```
from vllm import LLM, SamplingParams
    
    # 初始化模型
    llm = LLM(model="meta-llama/Llama-3.1-8B-Instruct")
    
    # 设置生成参数
    params = SamplingParams(temperature=0.7, max_tokens=256)
    
    # 批量推理
    prompts = ["解释量子计算", "写一个快速排序"]
    outputs = llm.generate(prompts, params)
    
    for output in outputs:
        print(output.prompt, output.outputs[0].text)
    
```
推荐理由

作为一名经常需要部署和测试大模型的开发者，vLLM 已经成为我工具箱里不可或缺的利器。之前每次部署新模型都要折腾好几天，要么显存不够，要么吞吐量上不去，要么就是跟各种推理框架的适配问题。

vLLM 最大的价值在于它真的能做到开箱即用。你从 Hugging Face 上找到的模型，基本上扔给 vLLM 就能跑，不用自己写适配代码，不用深入研究模型架构。特别是它的 PagedAttention 技术，真的把显存利用率拉满了，同样一张 A100，用 vLLM 能服务的并发请求数是之前的好几倍。

另外很赞的一点是它的量化支持特别全面。现在模型越来越大，不量化根本跑不起来。vLLM 支持的量化格式特别多，AWQ、GPTQ、GGUF 这些主流的都有，而且量化后的精度损失控制得很好，实际业务里基本感觉不出来。

如果你正在做 LLM 相关的项目，不管是创业做 AI 产品，还是企业里搭私有化部署，vLLM 都值得一试。它现在基本上是业界标准了，82.1k 的 Stars 不是白来的。

下载地址
- 官方网站：https://vllm.ai
- GitHub 仓库：https://github.com/vllm-project/vllm（82.1k+ Stars）
- 官方文档：https://docs.vllm.ai
- PyPI 安装：pip install vllm
- 社区论坛：https://discuss.vllm.ai
如果你觉得这个项目有帮助，欢迎到 GitHub 上点个 Star，支持开源社区的发展！
2026年6月7日

标签： 大模型部署

Ollama：170k Stars！本地LLM运行工具，让AI模型在本地飞速运行

配图

项目简介

安装要求和过程

环境要求

快速安装步骤

核心功能

典型使用场景

场景一：开发者本地 AI 应用开发

场景二：企业私有化部署

推荐理由

下载地址

vLLM：82.1k Stars！高性能LLM推理引擎，让大模型部署又快又省

配图

项目简介

安装要求和过程

环境要求

快速安装步骤

核心功能

典型使用场景

场景一：企业级大模型API服务

场景二：本地开发与环境测试

推荐理由

下载地址

标签：大模型部署