← 返回题库
推理与部署中等

大模型服务化部署:Triton / vLLM / TGI 怎么选?

#服务化框架#Triton#TGI#选型

题目

要把大模型部署成线上服务,Triton、vLLM、TGI 等框架如何选型?

参考答案

主流服务化方案

vLLM

  • 定位:开源高吞吐推理引擎,自带服务化(OpenAI 兼容 API)。
  • 优势:PagedAttention + Continuous Batching,吞吐强;生态活跃;OpenAI API 兼容易迁移。
  • 劣势:监控/多模型管理/灰度等企业特性弱。
  • 适合:中小团队、快速上线、单模型高并发。

TGI(Text Generation Inference,HuggingFace)

  • 定位:HF 出品,开箱即用,强对接 HF Hub。
  • 优势:支持模型广(含特殊架构)、流式输出、量化集成、易部署(Docker)。
  • 劣势:吞吐略逊 vLLM,定制化不如 vLLM 灵活。
  • 适合:HF 生态用户、快速验证、多模型轮换。

Triton Inference Server(NVIDIA)

  • 定位:通用推理服务器,支持多种框架(TensorRT/PyTorch/ONNX/自定义)。
  • 优势:企业级特性强——多模型管理、模型版本与灰度、监控集成、GPU 多租户、TensorRT-LLM 加速。
  • 劣势:学习曲线陡,配置复杂,需配合 TensorRT-LLM 才能发挥大模型加速。
  • 适合:大规模生产、多模型管理、企业级 SLA、已有 NVIDIA 栈。

TensorRT-LLM

  • 不是独立服务,是推理加速库,常配合 Triton 部署。
  • 极致延迟与吞吐,但需编译模型、调试复杂、灵活性低。
  • 适合:对延迟极致敏感、可投入工程成本的大厂。

SGLang

  • 结构化生成与多轮对话优势(见 SGLang 题)。
  • 适合 Agent / JSON 输出 / 多轮对话密集场景。

选型决策树

需求推荐
快速上线、单模型高并发vLLM
HF 生态、快速试多模型TGI
企业级多模型管理、灰度、监控Triton + TensorRT-LLM
Agent / 结构化输出SGLang
极致延迟、有工程团队Triton + TRT-LLM

配套基础设施

  • 负载均衡:多副本前加 LB(如 Nginx/Envoy),按 GPU 利用率分流。
  • 限流降级:令牌桶限流,过载时降级到小模型或排队。
  • 监控:Prometheus + Grafana 监控 QPS/延迟/GPU 利用率/显存。
  • 模型路由:按请求复杂度路由到不同大小模型,降本。

面试加分点

  • 指出”推理引擎”(vLLM/SGLang/TRT-LLM)与”服务化框架”(Triton/TGI)是两层——可组合(如 Triton 调度 + vLLM 后端)。
  • 生产部署真正难点不在引擎选型,而在多模型管理、灰度、限流、监控、成本控制
  • 模型路由(按复杂度分流大小模型)是降本利器,常被忽视。

出处:各框架官方文档、推理服务化面经。

内容来源

整理自推理服务化面经与各框架文档

本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。