LLM 推理服务部署架构

原创灵阙教研团队

S 精选提升架构设计 | 约 6 分钟阅读更新于 2026-02-27

AI 导读

LLM 推理服务部署架构从推理引擎选型到生产级 GPU 集群的全链路实践 Maurice | 灵阙学院一、推理引擎三巨头 LLM 推理服务的核心在于如何在有限的 GPU 资源上最大化吞吐量。三个主流推理引擎各有侧重。 ┌─────────────────────────────────────────────────────────────┐ │ 推理引擎技术栈 │...

LLM 推理服务部署架构

从推理引擎选型到生产级 GPU 集群的全链路实践

Maurice | 灵阙学院

一、推理引擎三巨头

LLM 推理服务的核心在于如何在有限的 GPU 资源上最大化吞吐量。三个主流推理引擎各有侧重。

┌─────────────────────────────────────────────────────────────┐
│                   推理引擎技术栈                              │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  vLLM                TGI                 TensorRT-LLM       │
│  ┌──────────┐       ┌──────────┐       ┌──────────┐        │
│  │PagedAttn │       │Flash Attn│       │TensorRT  │        │
│  │连续批处理 │       │Token流式 │       │图优化    │         │
│  │OpenAI API│       │HF生态    │       │NVIDIA原生│         │
│  │Python原生│       │Rust+Py  │       │C++核心   │         │
│  └──────────┘       └──────────┘       └──────────┘        │
│       │                  │                  │               │
│       ▼                  ▼                  ▼               │
│  通用 + 灵活        HF 集成最优        极致性能            │
└─────────────────────────────────────────────────────────────┘

1.1 详细对比

维度	vLLM	TGI (HuggingFace)	TensorRT-LLM
核心优势	PagedAttention 显存高效	HuggingFace 生态深度整合	NVIDIA 硬件极致优化
语言	Python	Rust + Python	C++ + Python
API 兼容	OpenAI 兼容	自有 API + OpenAI 适配	Triton Server
模型支持	广泛 (Llama/Mistral/Qwen等)	HF Hub 全量模型	需预编译 engine
量化支持	AWQ, GPTQ, FP8	GPTQ, AWQ, EETQ	FP8, INT8, INT4 (原生)
多模型部署	需多实例	需多实例	Triton 原生支持
启动时间	快 (直接加载权重)	中等	慢 (需编译 engine)
社区活跃度	极高 (UC Berkeley)	高 (HuggingFace)	高 (NVIDIA)
生产成熟度	高	高	高 (企业级)

1.2 选型决策

你的优先级是什么？
│
├─ 快速上手 + OpenAI 兼容 API
│  └─ vLLM (默认推荐，社区最活跃)
│
├─ HuggingFace 模型直接部署 + 快速迭代
│  └─ TGI (模型切换最方便)
│
├─ 极致吞吐 + NVIDIA GPU 深度优化
│  └─ TensorRT-LLM (需要预编译，但性能最强)
│
└─ 多模型统一服务 + 企业级运维
   └─ TensorRT-LLM + Triton Inference Server

二、服务架构模式

2.1 单模型服务

最简单的部署形态，一个服务实例对应一个模型。

Client → Load Balancer → [vLLM Instance (Model A)] x N

# vLLM 单模型部署
python -m vllm.entrypoints.openai.api_server \
    --model Qwen/Qwen2.5-72B-Instruct-AWQ \
    --quantization awq \
    --tensor-parallel-size 4 \
    --max-model-len 32768 \
    --gpu-memory-utilization 0.90 \
    --port 8000

2.2 多模型网关

通过统一网关将请求路由到不同模型实例。

                    ┌── vLLM (Qwen-72B) ──── GPU Node A
Client → Gateway ───┼── vLLM (Llama-70B) ── GPU Node B
                    ├── TGI (Mistral-7B) ── GPU Node C
                    └── vLLM (CodeLlama) ── GPU Node D

2.3 模型路由与负载均衡

# 路由策略示例
class ModelRouter:
    def route(self, request: ChatRequest) -> str:
        # 按任务复杂度路由
        if request.estimated_complexity == "high":
            return "qwen-72b"
        elif request.task_type == "code":
            return "codellama-34b"
        else:
            return "qwen-7b"  # 简单任务用小模型

    def select_instance(self, model: str) -> str:
        instances = self.healthy_instances[model]
        # 按队列深度选择最空闲的实例
        return min(instances, key=lambda i: i.pending_requests)

三、硬件选型

3.1 GPU 显存估算

模型加载所需显存的经验公式：

显存 (GB) = 参数量 (B) * 每参数字节数 + KV Cache + 运行开销

FP16: 参数量 * 2 bytes
INT8: 参数量 * 1 byte
INT4: 参数量 * 0.5 bytes

KV Cache = batch_size * seq_len * num_layers * hidden_dim * 2 * dtype_size

3.2 常见模型硬件需求

模型	参数量	FP16 显存	AWQ/INT4 显存	推荐 GPU 配置
Llama-3.1-8B	8B	16 GB	6 GB	1x A100-40G / 1x L40S
Qwen2.5-32B	32B	64 GB	20 GB	2x A100-40G / 1x A100-80G
Llama-3.1-70B	70B	140 GB	40 GB	2x A100-80G / 4x A100-40G
Qwen2.5-72B	72B	144 GB	42 GB	2x A100-80G (TP=2)
Llama-3.1-405B	405B	810 GB	220 GB	8x A100-80G (TP=8)

3.3 吞吐量规划

单 GPU 吞吐估算 (vLLM, A100-80G, FP16):
  7B 模型:  ~2000 tokens/s (批处理)
  70B 模型: ~300 tokens/s  (TP=2, 批处理)

生产容量规划:
  目标: 100 并发用户, 平均每请求 500 output tokens
  所需吞吐: 100 * 500 / 平均响应时间(s)

  以 70B 模型为例:
  单实例 ~300 tok/s → 单用户 ~1.7s
  100 并发 → 需要 ~170 tok/s 持续吞吐 → 1 实例 (2xA100) 可覆盖
  但 P99 延迟要求 < 10s → 建议 2 实例做冗余

四、量化部署

4.1 量化方案对比

方案	精度	压缩比	质量损失	推理速度	工具链
FP16	16-bit	1x	无	基线	原生支持
GPTQ	4-bit	4x	轻微	1.5-2x	AutoGPTQ
AWQ	4-bit	4x	极小	1.5-2x	AutoAWQ
GGUF	2-8bit	2-8x	可调	CPU友好	llama.cpp
FP8	8-bit	2x	极小	1.3x	TensorRT-LLM

4.2 量化部署示例

# AWQ 量化模型部署 (vLLM)
python -m vllm.entrypoints.openai.api_server \
    --model TheBloke/Llama-2-70B-Chat-AWQ \
    --quantization awq \
    --tensor-parallel-size 2 \
    --max-model-len 4096 \
    --enforce-eager  # 调试时关闭 CUDA Graph

# GGUF 模型部署 (llama.cpp server, CPU/低端GPU)
./llama-server \
    -m models/qwen2.5-7b-instruct-q4_k_m.gguf \
    -c 8192 \
    -ngl 35 \
    --host 0.0.0.0 \
    --port 8080

4.3 量化选型建议

你的硬件是什么？
│
├─ 高端 GPU (A100/H100)
│  └─ FP8 (TensorRT-LLM) 或 FP16 (vLLM)
│     性能最好，质量无损
│
├─ 中端 GPU (A10G/L40S/RTX 4090)
│  └─ AWQ 4-bit (vLLM / TGI)
│     4x 压缩，质量损失极小
│
├─ 低端 GPU / 消费级
│  └─ GGUF Q4_K_M (llama.cpp)
│     CPU+GPU 混合推理
│
└─ 纯 CPU 部署
   └─ GGUF Q4_K_M / Q5_K_M (llama.cpp)
      速度较慢但可用

五、自动伸缩策略

5.1 伸缩指标

┌───────────────────────────────────────────┐
│           自动伸缩决策树                    │
├───────────────────────────────────────────┤
│                                           │
│  监控指标:                                 │
│  ├─ GPU 利用率 > 80% (持续 5min)          │
│  ├─ 请求队列深度 > 50                      │
│  ├─ P95 延迟 > 阈值                       │
│  └─ Token 吞吐量接近上限                   │
│                                           │
│       任一触发 → 扩容 (cooldown: 5min)     │
│                                           │
│  缩容条件:                                 │
│  ├─ GPU 利用率 < 30% (持续 15min)         │
│  └─ 请求队列深度 < 5 (持续 15min)          │
│                                           │
│       全部满足 → 缩容 (cooldown: 10min)    │
└───────────────────────────────────────────┘

5.2 Kubernetes HPA 配置

apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: vllm-hpa
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: vllm-serving
  minReplicas: 1
  maxReplicas: 8
  metrics:
    - type: Pods
      pods:
        metric:
          name: gpu_utilization
        target:
          type: AverageValue
          averageValue: "80"
    - type: Pods
      pods:
        metric:
          name: pending_requests
        target:
          type: AverageValue
          averageValue: "20"
  behavior:
    scaleUp:
      stabilizationWindowSeconds: 60
      policies:
        - type: Pods
          value: 2
          periodSeconds: 120
    scaleDown:
      stabilizationWindowSeconds: 300

六、成本优化模式

模式	节省比例	实施方式
Spot/抢占实例	60-90%	非关键负载用 Spot GPU
分时复用	30-50%	非高峰时段缩容到最小
量化压缩	50-75%	AWQ/GPTQ 减少 GPU 需求
模型级联	40-60%	简单请求走小模型
推测解码	10-30%	小模型草稿 + 大模型验证
KV Cache 复用	10-20%	Prefix caching (vLLM 原生支持)

七、生产部署清单

维度	检查项	说明
可用性	健康检查端点	/health 返回模型加载状态
可用性	优雅关停	SIGTERM 时等待在途请求完成
可用性	多实例冗余	至少 2 实例消除单点
性能	基准测试	用 benchmark_serving.py 确认吞吐
性能	显存监控	OOM 前告警并拒绝新请求
安全	API 认证	Token / API Key 鉴权
安全	输入过滤	Prompt 长度限制 + 内容安全
运维	日志收集	请求日志 + 性能指标
运维	模型版本管理	版本化存储 + 灰度发布
成本	使用量计量	按 Token 计量用于计费/预算

Maurice | [email protected]

深度加工（NotebookLM 生成）

基于本文内容生成的 PPT 大纲、博客摘要、短视频脚本与 Deep Dive 播客，用于多场景复用

PPT 大纲（5-8 张幻灯片）点击展开

LLM 推理服务部署架构 — ppt

这是一份为您基于上传的 LLM 推理服务部署架构文章提取的 PPT 大纲，共包含 7 张幻灯片，涵盖了从引擎选型到生产运维的全链路核心内容：

幻灯片 1：LLM 推理服务部署架构概览

核心挑战：在有限的 GPU 资源上最大化模型的吞吐量与推理性能 [1]。
架构全景：涵盖从底层的推理引擎选型、服务网关搭建，到硬件显存规划与量化部署 [1-4]。
生产级能力：提供 Kubernetes 自动伸缩策略（HPA）及详尽的生产部署核对清单，保障高可用性 [5, 6]。
降本增效：结合量化压缩、模型级联等技术，实现企业级成本优化 [5]。

幻灯片 2：主流推理引擎选型对比

vLLM：具备 PagedAttention 技术，显存高效，提供 OpenAI 兼容 API，是社区最活跃的默认推荐首选 [1, 2]。
TGI：与 HuggingFace 生态深度整合，支持全量模型直接部署，最适合需要快速迭代的场景 [1, 2]。
TensorRT-LLM：针对 NVIDIA 硬件进行极致优化，虽需预编译，但能提供最强性能，适合企业级多模型统一服务 [1, 2]。
选型决策点：依据“快速上手”、“生态兼容”或“极致吞吐”的不同业务优先级进行抉择 [2]。

幻灯片 3：服务架构模式设计

单模型服务：最基础的部署形态，一个服务实例直接对应一个模型（如通过 vLLM 单例部署） [2]。
多模型网关：通过统一网关将客户端请求灵活路由到分布在不同 GPU 节点上的多模型实例 [2]。
智能任务路由：按任务复杂度分配，例如将复杂请求路由至 72B 大模型，将简单任务或代码任务路由至 7B/34B 模型 [2, 3]。
负载均衡机制：根据后端队列深度评估最空闲实例，确保请求分发的高效性与低延迟 [3]。

幻灯片 4：硬件选型与容量规划

显存估算公式：总需求等于参数量占比（如 FP16 每参数 2 bytes）加上动态的 KV Cache 与运行开销 [3]。
常见硬件配置：32B 模型推荐 2x A100-40G，而 70B 级别模型（FP16精度）则通常需要 2x A100-80G 配置进行张量并行（TP=2） [3]。
吞吐量评估：单卡部署 7B 模型批处理吞吐约 2000 tokens/s，而 70B 模型（TP=2）约为 300 tokens/s [3]。
生产并发冗余：面对 100 并发用户且有 P99 延迟要求（<10s）时，建议至少增加 1 个实例进行冗余部署 [3, 4]。

幻灯片 5：模型量化部署策略

量化方案对比：FP16 为无损基线；AWQ/GPTQ 提供 4 倍压缩率且质量损失极小；FP8 则能在极小损失下提升 1.3 倍速度 [4]。
高端硬件策略：A100/H100 等高端 GPU 推荐采用 FP8 (TensorRT-LLM) 或 FP16 (vLLM) 以保障最高输出质量 [4]。
中端硬件策略：RTX 4090、L40S 等显卡建议采用 AWQ 4-bit 量化，大幅降低显存需求 [4]。
低端及无卡策略：消费级显卡或纯 CPU 方案，可使用 GGUF 格式（如 Q4_K_M）搭配 llama.cpp 运行 [4]。

幻灯片 6：集群自动伸缩与成本优化

自动扩容指标：当 GPU 利用率持续大于 80%、请求队列深度大于 50，或 P95 延迟超过阈值时触发扩容 [5]。
自动缩容机制：在 GPU 利用率低于 30% 且队列极短（<5）并持续 15 分钟后触发缩容，避免资源浪费 [5]。
实例成本优化：非关键负载可使用 Spot 抢占式实例（节省 60-90%），并利用非高峰时段缩容实现 GPU 分时复用 [5]。
推理成本优化：结合量化压缩、推测解码以及 vLLM 原生支持的 KV Cache 复用技术进一步降低算力开销 [5, 6]。

幻灯片 7：生产部署核对清单

高可用保障：必须配置健康检查端点并确保 SIGTERM 时优雅关停（处理完在途请求），且至少保持两实例冗余以消除单点故障 [6]。
性能监控：上线前需执行 benchmark 基准测试确认吞吐量，并对显存 OOM 建立告警及熔断机制 [6]。
安全与防护：必须包含 Token/API Key 鉴权认证，实施输入长度限制与内容安全过滤 [6]。
计费与运维：需建立请求日志与性能指标收集系统，并实现按 Token 计量以便于成本预算和计费追踪 [6]。

博客摘要 + 核心看点点击展开

LLM 推理服务部署架构 — summary

SEO 友好博客摘要（约 150 字）

本文深度解析生产级大语言模型（LLM）推理服务部署架构的全链路实践[1]。从 vLLM、TGI 与 TensorRT-LLM 三大主流推理引擎的选型对比入手，详细探讨了单多模型路由架构、GPU 显存与吞吐量的精确估算方法[1-3]。此外，文章结合 AWQ/GGUF 等量化部署方案、Kubernetes 弹性伸缩（HPA）机制，以及模型级联等降本优化策略，为开发者提供了一份高可用、低成本的完整生产部署指南[4-6]。

3 条核心看点