RLHF(Reinforcement Learning from Human Feedback)通过人类偏好数据训练奖励模型,引导强化学习优化,是大模型价值对齐的核心技术。

核心定义

RLHF通过收集人类偏好数据(优劣排序、满意度评分),训练奖励模型拟合人类判断,以奖励信号指导策略优化。

解决两大问题

  • 价值对齐:让模型输出匹配人类伦理准则和实用需求
  • 奖励函数困境:将主观判断转化为可优化目标

三阶段架构

阶段一:监督微调(SFT)

阶段二:奖励模型训练(RM)

偏好数据格式:

{
  "src": "指令",
  "response": ["优质输出", "劣质输出"],
  "sort": [2, 1]
}

损失函数:

阶段三:强化学习优化(RL/PPO)

其中

发展历程

阶段时间关键进展
起源2015-2017Christiano提出RLHF框架,验证偏好排序可行性
突破2020-2022InstructGPT三阶段架构,1.3B超越175B GPT-3
进化2022-至今Constitutional AI、DeepSeek第三代RLHF

核心性质与挑战

性质挑战
偏好泛化性标注成本高昂
对齐放大效应奖励模型偏差
可解释性潜力奖励黑客现象
多模态适配性训练不稳定性

适用场景

场景说明
对话系统优化提升响应相关性、逻辑性、安全性
内容生成摘要、文案、代码生成质量优化
推荐系统结合用户反馈优化推荐
伦理对齐降低有害输出率

工程实践要点

要点说明
数据多样性覆盖全场景,包含边缘案例
标注一致性明确标注指南,多人标注+共识机制
KL系数设置初始0.01-0.1,避免策略过度偏离
奖励归一化减少奖励分布波动

最新进展

技术说明
DPO无需显式奖励模型,直接优化策略
RLVR第四阶段,通过验证和推理提供奖励信号
GRPO无价值网络,显存降低40%-50%
多模态RLHF文本、图像、音频跨模态对齐

PyTorch实现示例

def ppo_update(model, query, response, reward, old_log_probs, clip_epsilon=0.2):
    log_probs = model.get_log_probs(query + response)
    value = model.value_head(hidden_states)
    advantage = reward - value.detach()
 
    ratio = torch.exp(log_probs - old_log_probs.detach())
    clipped_ratio = torch.clamp(ratio, 1-clip_epsilon, 1+clip_epsilon)
    ppo_loss = -torch.min(ratio * advantage, clipped_ratio * advantage).mean()
 
    return ppo_loss