推理与部署困难

数据并行/张量并行/流水线并行/ZeRO 区别？

#数据并行#张量并行#流水线并行#ZeRO 1/2/3

题目

大模型训练与推理常用数据并行（DP）、张量并行（TP）、流水线并行（PP）、ZeRO。请对比四者的切分对象、通信开销与适用场景。

数据并行（Data Parallelism, DP）：

张量并行（Tensor Parallelism, TP）：

流水线并行（Pipeline Parallelism, PP）：

ZeRO（Zero Redundance Optimizer，DeepSpeed）：

切分对象：优化器状态、梯度、参数的显存冗余。分三级：
- ZeRO-1：切分优化器状态（FP32 主副本 + Adam 矩）。
- ZeRO-2：再切分梯度。
- ZeRO-3：再切分模型参数（前向需 all-gather 临时拼回）。
本质：DP 的增强版，把单卡冗余显存分摊到多卡，让单卡能装下更大模型。

对比表：

实践组合：超大模型常 3D 并行 = DP + TP + PP，例如 8 卡单机 TP，多机 PP，外层 DP/ZeRO。

面试加分点：

出处：DeepSpeed 论文与文档、Megatron-LM 文档、分布式训练面经。

内容来源

整理自 DeepSpeed/Megatron-LM 文档与分布式训练面经

本站内容整理自公开面经与开源仓库，仅供学习交流，严禁杜撰。