RLHF(Reinforcement Learning from Human Feedback)通过人类偏好数据训练奖励模型,引导强化学习优化,是大模型价值对齐的核心技术。
核心定义
RLHF通过收集人类偏好数据(优劣排序、满意度评分),训练奖励模型拟合人类判断,以奖励信号指导策略优化。
解决两大问题:
- 价值对齐:让模型输出匹配人类伦理准则和实用需求
- 奖励函数困境:将主观判断转化为可优化目标
三阶段架构
阶段一:监督微调(SFT)
$$\mathcal{L}{\text{SFT}} = -\mathbb{E}{(x,y) \sim \mathcal{D}{\text{SFT}}} \sum{t=1}^T \log P_\theta(y_t | y_{1:t-1}, x)$$
阶段二:奖励模型训练(RM)
偏好数据格式:
| |
损失函数: $$\mathcal{L}{\text{RM}} = -\mathbb{E}{(x,y_1,y_2)} \log \sigma(r_\phi(y_1|x) - r_\phi(y_2|x))$$
阶段三:强化学习优化(RL/PPO)
$$\mathcal{L}{\text{PPO}} = \mathbb{E}\left[ \min\left( \rho \cdot A, \text{clip}(\rho, 1-\epsilon, 1+\epsilon) \cdot A \right) \right] - \beta \mathcal{L}{\text{KL}}$$
其中$\rho = \frac{\pi_\theta(a|x)}{\pi_{\theta_{\text{old}}}(a|x)}$,$A = r_\phi(a|x) - V_\psi(a|x)$。
发展历程
| 阶段 | 时间 | 关键进展 |
|---|---|---|
| 起源 | 2015-2017 | Christiano提出RLHF框架,验证偏好排序可行性 |
| 突破 | 2020-2022 | InstructGPT三阶段架构,1.3B超越175B GPT-3 |
| 进化 | 2022-至今 | Constitutional AI、DeepSeek第三代RLHF |
核心性质与挑战
| 性质 | 挑战 |
|---|---|
| 偏好泛化性 | 标注成本高昂 |
| 对齐放大效应 | 奖励模型偏差 |
| 可解释性潜力 | 奖励黑客现象 |
| 多模态适配性 | 训练不稳定性 |
适用场景
| 场景 | 说明 |
|---|---|
| 对话系统优化 | 提升响应相关性、逻辑性、安全性 |
| 内容生成 | 摘要、文案、代码生成质量优化 |
| 推荐系统 | 结合用户反馈优化推荐 |
| 伦理对齐 | 降低有害输出率 |
工程实践要点
| 要点 | 说明 |
|---|---|
| 数据多样性 | 覆盖全场景,包含边缘案例 |
| 标注一致性 | 明确标注指南,多人标注+共识机制 |
| KL系数设置 | 初始0.01-0.1,避免策略过度偏离 |
| 奖励归一化 | 减少奖励分布波动 |
最新进展
| 技术 | 说明 |
|---|---|
| DPO | 无需显式奖励模型,直接优化策略 |
| RLVR | 第四阶段,通过验证和推理提供奖励信号 |
| GRPO | 无价值网络,显存降低40%-50% |
| 多模态RLHF | 文本、图像、音频跨模态对齐 |
PyTorch实现示例
| |
张芷铭的个人博客
Comments