← 返回职业图谱
工程应用族高阶40–80K · 2026 最值钱技能之一

AI Infra 工程师

做模型压缩、量化与推理加速,把大模型从实验室推向生产,可降本 70%+。

01 — 岗位职责

  • 大模型推理服务化(vLLM / TensorRT-LLM / SGLang)
  • 量化压缩(INT8 / INT4 / AWQ / GPTQ)
  • 动态批处理与显存调度优化
  • 训练集群性能优化与算子加速
  • 推理成本与延迟的持续优化

02 — 能力要求

C++ / CUDAvLLM / PagedAttention 原理量化算法与误差分析分布式系统与 Kubernetes性能剖析(nsight / py-spy)

03 — 面试考点

PagedAttention 原理
KV Cache 机制与显存占用
量化误差与精度损失
Continuous Batching
推理吞吐与延迟优化

04 — 岗位速写

AI Infra 被称为”2026 最值钱的技能”——它是在模型压缩、量化、推理加速(vLLM、TensorRT)上把成本降低 70% 以上的桥梁型角色。一句话:AI Infra 让 AI 从实验室走向生产环境。

面试聚焦推理引擎的底层原理:PagedAttention、KV Cache、量化误差、Continuous Batching,以及对吞吐与延迟的极致优化。