- 张芷铭的个人博客

引言

在大模型工业化落地过程中，“对齐人类偏好”是决定模型实用性的关键环节。传统RLHF（基于人类反馈的强化学习）虽能实现这一目标，但需经历“监督微调（SFT）→奖励模型（RM）训练→强化学习（PPO）”三步流程，存在训练复杂、成本高昂、易出现奖励黑客等问题。2023年提出的直接偏好优化（Direct Preference Optimization, DPO）技术，通过精妙的数学变换将两阶段优化转化为单阶段直接优化，无需显式训练奖励模型和复杂强化学习流程，大幅降低了对齐技术的门槛和成本。如今，DPO已成为LLaMA 3、Qwen 2等主流大模型的核心对齐方案，更是中小团队实现高质量模型对齐的首选技术。本文将从理论到实践，全面拆解DPO训练的核心逻辑、实施细节与最新进展。

一、DPO的定义与发展历程

核心定义

DPO是一种大模型对齐技术，通过直接利用人类偏好数据（prompt+优质�

引言

一、DPO的定义与发展历程

核心定义

Comments