- 张芷铭的个人博客

RLHF（Reinforcement Learning from Human Feedback）通过人类偏好数据训练奖励模型，引导强化学习优化，是大模型价值对齐的核心技术。

核心定义

RLHF通过收集人类偏好数据（优劣排序、满意度评分），训练奖励模型拟合人类判断，以奖励信号指导策略优化。

解决两大问题：

价值对齐：让模型输出匹配人类伦理准则和实用需求
奖励函数困境：将主观判断转化为可优化目标

三阶段架构

阶段一：监督微调（SFT）

$$\mathcal{L}{\text{SFT}} = -\mathbb{E}{(x,y) \sim \mathcal{D}{\text{SFT}}} \sum{t=1}^T \log P_\theta(y_t | y_{1:t-1}, x)$$

阶段二：奖励模型训练（RM）

偏好数据格式：

1
2
3
4
5
{
  "src": "指令",
  "response": ["优质输出", "劣质输出"],
  "sort": [2, 1]
}

损失函数： $$\mathcal{L}{\text{RM}} = -\mathbb{E}{(x,y_1,y_2)} \log \sigma(r_\phi(y_1|x) - r_\phi(y_2|x))$$

阶段三：强化学习优化（RL/PPO）

$$\mathcal{L}{\text{PPO}} = \mathbb{E}\left[ \min\left( \rho \cdot A, \text{clip}(\rho, 1-\epsilon, 1+\epsilon) \cdot A \right) \right] - \beta \mathcal{L}{\text{KL}}$$

其中$\rho = \frac{\pi_\theta(a|x)}{\pi_{\theta_{\text{old}}}(a|x)}$，$A = r_\phi(a|x) - V_\psi(a|x)$。

发展历程

阶段	时间	关键进展
起源	2015-2017	Christiano提出RLHF框架，验证偏好排序可行性
突破	2020-2022	InstructGPT三阶段架构，1.3B超越175B GPT-3
进化	2022-至今	Constitutional AI、DeepSeek第三代RLHF

核心性质与挑战

性质	挑战
偏好泛化性	标注成本高昂
对齐放大效应	奖励模型偏差
可解释性潜力	奖励黑客现象
多模态适配性	训练不稳定性

适用场景

场景	说明
对话系统优化	提升响应相关性、逻辑性、安全性
内容生成	摘要、文案、代码生成质量优化
推荐系统	结合用户反馈优化推荐
伦理对齐	降低有害输出率

工程实践要点

要点	说明
数据多样性	覆盖全场景，包含边缘案例
标注一致性	明确标注指南，多人标注+共识机制
KL系数设置	初始0.01-0.1，避免策略过度偏离
奖励归一化	减少奖励分布波动

技术	说明
DPO	无需显式奖励模型，直接优化策略
RLVR	第四阶段，通过验证和推理提供奖励信号
GRPO	无价值网络，显存降低40%-50%
多模态RLHF	文本、图像、音频跨模态对齐

PyTorch实现示例

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
def ppo_update(model, query, response, reward, old_log_probs, clip_epsilon=0.2):
    log_probs = model.get_log_probs(query + response)
    value = model.value_head(hidden_states)
    advantage = reward - value.detach()

    ratio = torch.exp(log_probs - old_log_probs.detach())
    clipped_ratio = torch.clamp(ratio, 1-clip_epsilon, 1+clip_epsilon)
    ppo_loss = -torch.min(ratio * advantage, clipped_ratio * advantage).mean()

    return ppo_loss