训练与微调困难

GRPO 与 PPO 区别？为何 DeepSeek-R1 用 GRPO？

#GRPO#PPO#可验证奖励#critic 免除

题目

DeepSeek-R1 采用 GRPO 替代 PPO 做强化学习。请说明 GRPO 与 PPO 的核心区别，以及它为何适合推理任务。

PPO 的流程：策略模型生成回答 → 奖励模型打分 → 同时训练一个 critic（价值网络） 估计基线 → 用 GAE 计算优势 $A$ → clipped surrogate loss 更新策略。

PPO 的痛点：

GRPO（Group Relative Policy Optimization）核心改动：

A_i = \frac{r_i - \text{mean}(r_1,\dots,r_G)}{\text{std}(r_1,\dots,r_G)}

无需 critic，省一半显存。

可用可验证奖励（RLVR）：奖励不必来自 RM，可直接来自程序验证：
- 数学题：答案是否正确
- 代码题：是否通过测试用例
- 格式约束：是否遵循 <think> 标签格式
保留 KL 约束：仍用 KL 散度约束策略与参考模型偏离。

为何适合推理任务：

对比表：

面试加分点：

出处：头条《2026 年面向 LLM 的 RL 方法总结：从 PPO 到 DPO 到 GRPO，再到多智能体》、DeepSeek-R1 技术报告。

内容来源

整理自头条《2026 年面向 LLM 的 RL 方法总结：从 PPO 到 DPO 到 GRPO》及 DeepSeek-R1 论文

本站内容整理自公开面经与开源仓库，仅供学习交流，严禁杜撰。