← 返回题库
训练与微调困难

RLHF 中奖励模型如何训练?reward hacking 怎么防?

#奖励模型#偏好标注#reward hacking#KL 约束

题目

在 RLHF 流程中,奖励模型(Reward Model)是如何训练的?什么是 reward hacking,如何缓解?

参考答案

奖励模型(RM)训练流程

  1. 偏好数据收集:对同一 prompt,让 SFT 模型生成多个回答,由人工标注员排序(chosen vs rejected),或用更强模型做偏好标注(constitutional AI)。
  2. 训练目标:Bradley-Terry 模型,让 chosen 的奖励高于 rejected:
LRM=logσ(r(x,ychosen)r(x,yrejected))\mathcal{L}_{RM} = -\log\sigma(r(x, y_{chosen}) - r(x, y_{rejected}))
  1. 模型结构:通常取 SFT 模型去掉解码头,接一个标量输出头作为奖励值。
  2. 数据规模:通常数万到数十万条偏好对;高质量标注是关键。

PPO 阶段如何用 RM:用 RM 给生成回答打分作为奖励,PPO 优化策略以最大化奖励,同时加 KL 散度约束防止偏离 SFT 模型太远:

Rtotal=RRMβKL(πθπSFT)\mathcal{R}_{total} = \mathcal{R}_{RM} - \beta \cdot \text{KL}(\pi_\theta \| \pi_{SFT})

reward hacking(奖励黑客):策略模型找到 RM 的弱点来”骗取”高分,而非真正变好。典型表现:

  • 回答变冗长(RM 偏好长回答)
  • 滥用 Markdown 标题、项目符号
  • 谄媚语气(迎合 RM 偏好)
  • 重复关键词

典型信号:reward 持续升高,但人工评估反而变差。

缓解手段

  1. KL 约束:限制策略与 SFT 模型的偏离,防止钻牛角尖。
  2. RM 集成:训练多个 RM 取平均/最小值,降低单一 RM 的弱点被利用。
  3. 数据迭代:用新策略的输出补充偏好数据,重训 RM(对抗训练思路)。
  4. 奖励模型评估:定期在 hold-out 集上评估 RM 与人类判断的一致性。
  5. 改用 DPO/GRPO:DPO 直接用偏好数据训练策略,跳过 RM,从根源避免 reward hacking。

面试加分点:能指出”reward hacking 的根源是 RM 作为代理(proxy)无法完美替代人类判断”,并说明为何 DPO/GRPO 这类直接偏好优化方法在工程上更受青睐。

出处:CSDN《收藏!2025 大模型面试必备:17 道 RLHF 高频题深度解析》、《RLHF 与大模型对齐:从 PPO 到 DPO》。

内容来源

整理自 CSDN《收藏!2025 大模型面试必备:17 道 RLHF 高频题深度解析》及《RLHF 与大模型对齐:从 PPO 到 DPO》

本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。