题目
DeepSeek-R1 采用 GRPO 替代 PPO 做强化学习。请说明 GRPO 与 PPO 的核心区别,以及它为何适合推理任务。
参考答案
PPO 的流程:策略模型生成回答 → 奖励模型打分 → 同时训练一个 critic(价值网络) 估计基线 → 用 GAE 计算优势 → clipped surrogate loss 更新策略。
PPO 的痛点:
- 需训 critic:critic 与策略同等大小,显存翻倍。
- critic 难训:价值函数估计偏差大,尤其在推理任务上奖励稀疏。
- 依赖 RM:人工偏好 RM 易被 hacking。
GRPO(Group Relative Policy Optimization)核心改动:
- 去掉 critic:对同一 prompt 采样一组 个回答 ,用组内奖励的归一化作为基线:
无需 critic,省一半显存。
-
可用可验证奖励(RLVR):奖励不必来自 RM,可直接来自程序验证:
- 数学题:答案是否正确
- 代码题:是否通过测试用例
- 格式约束:是否遵循
<think>标签格式
-
保留 KL 约束:仍用 KL 散度约束策略与参考模型偏离。
为何适合推理任务:
- 推理任务(数学、代码、逻辑)有客观正确答案,可用程序验证而非人工偏好——RLVR 天然适配。
- 推理过程长、奖励稀疏,critic 估计不准,GRPO 的组内基线更稳健。
- DeepSeek-R1 用纯 RL(GRPO + RLVR)让模型自发涌现长思维链与反思能力,无需 SFT 冷启动。
对比表:
| 维度 | PPO | GRPO |
|---|---|---|
| Critic | 需要 | 不需要(组内基线) |
| 显存 | 2× 策略 | 1× 策略 |
| 奖励来源 | RM(偏好) | RM 或可验证奖励 |
| 适合任务 | 通用对齐 | 推理/代码/数学 |
| 代表 | GPT-3.5 RLHF | DeepSeek-R1 |
面试加分点:
- 指出 GRPO 本质是 PPO 的 critic-free 变体,思路与 REINFORCE 的 baseline 接近,但用组内归一化降方差。
- DeepSeek-R1 的 R1-Zero 直接从基座模型做 GRPO,不做 SFT,仍能涌现推理能力——这是它最具影响力的发现。
- DPO 跳过 RL,GRPO 保留 RL 但简化,二者是当前对齐的主流替代 PPO 方案。
出处:头条《2026 年面向 LLM 的 RL 方法总结:从 PPO 到 DPO 到 GRPO,再到多智能体》、DeepSeek-R1 技术报告。
内容来源
整理自头条《2026 年面向 LLM 的 RL 方法总结:从 PPO 到 DPO 到 GRPO》及 DeepSeek-R1 论文
本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。