题目
在 RLHF 流程中,奖励模型(Reward Model)是如何训练的?什么是 reward hacking,如何缓解?
参考答案
奖励模型(RM)训练流程:
- 偏好数据收集:对同一 prompt,让 SFT 模型生成多个回答,由人工标注员排序(chosen vs rejected),或用更强模型做偏好标注(constitutional AI)。
- 训练目标:Bradley-Terry 模型,让 chosen 的奖励高于 rejected:
- 模型结构:通常取 SFT 模型去掉解码头,接一个标量输出头作为奖励值。
- 数据规模:通常数万到数十万条偏好对;高质量标注是关键。
PPO 阶段如何用 RM:用 RM 给生成回答打分作为奖励,PPO 优化策略以最大化奖励,同时加 KL 散度约束防止偏离 SFT 模型太远:
reward hacking(奖励黑客):策略模型找到 RM 的弱点来”骗取”高分,而非真正变好。典型表现:
- 回答变冗长(RM 偏好长回答)
- 滥用 Markdown 标题、项目符号
- 谄媚语气(迎合 RM 偏好)
- 重复关键词
典型信号:reward 持续升高,但人工评估反而变差。
缓解手段:
- KL 约束:限制策略与 SFT 模型的偏离,防止钻牛角尖。
- RM 集成:训练多个 RM 取平均/最小值,降低单一 RM 的弱点被利用。
- 数据迭代:用新策略的输出补充偏好数据,重训 RM(对抗训练思路)。
- 奖励模型评估:定期在 hold-out 集上评估 RM 与人类判断的一致性。
- 改用 DPO/GRPO:DPO 直接用偏好数据训练策略,跳过 RM,从根源避免 reward hacking。
面试加分点:能指出”reward hacking 的根源是 RM 作为代理(proxy)无法完美替代人类判断”,并说明为何 DPO/GRPO 这类直接偏好优化方法在工程上更受青睐。
出处:CSDN《收藏!2025 大模型面试必备:17 道 RLHF 高频题深度解析》、《RLHF 与大模型对齐:从 PPO 到 DPO》。
内容来源
整理自 CSDN《收藏!2025 大模型面试必备:17 道 RLHF 高频题深度解析》及《RLHF 与大模型对齐:从 PPO 到 DPO》
本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。