张芷铭的个人博客

引言

在大模型工业化落地过程中,“对齐人类偏好”是决定模型实用性的关键环节。传统RLHF(基于人类反馈的强化学习)虽能实现这一目标,但需经历“监督微调(SFT)→奖励模型(RM)训练→强化学习(PPO)”三步流程,存在训练复杂、成本高昂、易出现奖励黑客等问题。2023年提出的直接偏好优化(Direct Preference Optimization, DPO)技术,通过精妙的数学变换将两阶段优化转化为单阶段直接优化,无需显式训练奖励模型和复杂强化学习流程,大幅降低了对齐技术的门槛和成本。如今,DPO已成为LLaMA 3、Qwen 2等主流大模型的核心对齐方案,更是中小团队实现高质量模型对齐的首选技术。本文将从理论到实践,全面拆解DPO训练的核心逻辑、实施细节与最新进展。

一、DPO的定义与发展历程

核心定义

DPO是一种大模型对齐技术,通过直接利用人类偏好数据(prompt+优质�

Comments