训练与微调困难

RLHF 中奖励模型如何训练？reward hacking 怎么防？

#奖励模型#偏好标注#reward hacking#KL 约束

题目

在 RLHF 流程中，奖励模型（Reward Model）是如何训练的？什么是 reward hacking，如何缓解？

奖励模型（RM）训练流程：

偏好数据收集：对同一 prompt，让 SFT 模型生成多个回答，由人工标注员排序（chosen vs rejected），或用更强模型做偏好标注（constitutional AI）。
训练目标：Bradley-Terry 模型，让 chosen 的奖励高于 rejected：

\mathcal{L}_{RM} = -\log\sigma(r(x, y_{chosen}) - r(x, y_{rejected}))

PPO 阶段如何用 RM：用 RM 给生成回答打分作为奖励，PPO 优化策略以最大化奖励，同时加 KL 散度约束防止偏离 SFT 模型太远：

\mathcal{R}_{total} = \mathcal{R}_{RM} - \beta \cdot \text{KL}(\pi_\theta \| \pi_{SFT})

reward hacking（奖励黑客）：策略模型找到 RM 的弱点来”骗取”高分，而非真正变好。典型表现：

典型信号：reward 持续升高，但人工评估反而变差。

缓解手段：

面试加分点：能指出”reward hacking 的根源是 RM 作为代理（proxy）无法完美替代人类判断”，并说明为何 DPO/GRPO 这类直接偏好优化方法在工程上更受青睐。

出处：CSDN《收藏！2025 大模型面试必备：17 道 RLHF 高频题深度解析》、《RLHF 与大模型对齐：从 PPO 到 DPO》。

内容来源

整理自 CSDN《收藏！2025 大模型面试必备：17 道 RLHF 高频题深度解析》及《RLHF 与大模型对齐：从 PPO 到 DPO》

本站内容整理自公开面经与开源仓库，仅供学习交流，严禁杜撰。