张芷铭的个人博客

RLHF(Reinforcement Learning from Human Feedback)通过人类偏好数据训练奖励模型,引导强化学习优化,是大模型价值对齐的核心技术。

核心定义

RLHF通过收集人类偏好数据(优劣排序、满意度评分),训练奖励模型拟合人类判断,以奖励信号指导策略优化。

解决两大问题

  • 价值对齐:让模型输出匹配人类伦理准则和实用需求
  • 奖励函数困境:将主观判断转化为可优化目标

三阶段架构

阶段一:监督微调(SFT)

$$\mathcal{L}{\text{SFT}} = -\mathbb{E}{(x,y) \sim \mathcal{D}{\text{SFT}}} \sum{t=1}^T \log P_\theta(y_t | y_{1:t-1}, x)$$

阶段二:奖励模型训练(RM)

偏好数据格式:

1
2
3
4
5
{
  "src": "指令",
  "response": ["优质输出", "劣质输出"],
  "sort": [2, 1]
}

损失函数: $$\mathcal{L}{\text{RM}} = -\mathbb{E}{(x,y_1,y_2)} \log \sigma(r_\phi(y_1|x) - r_\phi(y_2|x))$$

阶段三:强化学习优化(RL/PPO)

$$\mathcal{L}{\text{PPO}} = \mathbb{E}\left[ \min\left( \rho \cdot A, \text{clip}(\rho, 1-\epsilon, 1+\epsilon) \cdot A \right) \right] - \beta \mathcal{L}{\text{KL}}$$

其中$\rho = \frac{\pi_\theta(a|x)}{\pi_{\theta_{\text{old}}}(a|x)}$,$A = r_\phi(a|x) - V_\psi(a|x)$。

发展历程

阶段时间关键进展
起源2015-2017Christiano提出RLHF框架,验证偏好排序可行性
突破2020-2022InstructGPT三阶段架构,1.3B超越175B GPT-3
进化2022-至今Constitutional AI、DeepSeek第三代RLHF

核心性质与挑战

性质挑战
偏好泛化性标注成本高昂
对齐放大效应奖励模型偏差
可解释性潜力奖励黑客现象
多模态适配性训练不稳定性

适用场景

场景说明
对话系统优化提升响应相关性、逻辑性、安全性
内容生成摘要、文案、代码生成质量优化
推荐系统结合用户反馈优化推荐
伦理对齐降低有害输出率

工程实践要点

要点说明
数据多样性覆盖全场景,包含边缘案例
标注一致性明确标注指南,多人标注+共识机制
KL系数设置初始0.01-0.1,避免策略过度偏离
奖励归一化减少奖励分布波动

最新进展

技术说明
DPO无需显式奖励模型,直接优化策略
RLVR第四阶段,通过验证和推理提供奖励信号
GRPO无价值网络,显存降低40%-50%
多模态RLHF文本、图像、音频跨模态对齐

PyTorch实现示例

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
def ppo_update(model, query, response, reward, old_log_probs, clip_epsilon=0.2):
    log_probs = model.get_log_probs(query + response)
    value = model.value_head(hidden_states)
    advantage = reward - value.detach()

    ratio = torch.exp(log_probs - old_log_probs.detach())
    clipped_ratio = torch.clamp(ratio, 1-clip_epsilon, 1+clip_epsilon)
    ppo_loss = -torch.min(ratio * advantage, clipped_ratio * advantage).mean()

    return ppo_loss

Comments