diffusion loss

扩散模型损失函数以噪声预测 L2 损失（离散时间）和分数匹配损失（连续时间）为核心，其他损失多为其变体或扩展。

基础噪声预测损失

噪声预测 L2 损失（DDPM 核心）

$L_{simple} = E_{x_{0}, ϵ, t} [∥ ϵ - ϵ_{θ} (x_{t}, t) ∥^{2}]$

模型预测当前时间步样本中包含的噪声，计算简单、训练稳定。

分数匹配损失（连续时间模型）

$L_{score} = E_{x_{t}, t} [∥ s (x_{t}, t) - s_{θ} (x_{t}, t) ∥^{2}]$

学习分数函数 $s_{θ} (x_{t}, t) = - \nabla_{x_{t}} lo g p_{t} (x_{t})$ ，适用于 SDE 框架。

扩展变体损失

加权噪声预测损失

$L_{weighted} = E_{x_{0}, ϵ, t} [w (t) \cdot ∥ ϵ - ϵ_{θ} (x_{t}, t) ∥^{2}]$

对不同时间步分配不同权重，优化关键步骤学习效果。

样本预测损失

预测目标	公式
$x_{t - 1}$	$L = E [∥ x_{t - 1} - x_{t - 1, θ} (x_{t}, t) ∥^{2}]$
$x_{0}$	$L = E [∥ x_{0} - x_{0, θ} (x_{t}, t) ∥^{2}]$

感知损失（LPIPS）

$L_{LPIPS} = ∥ ϕ (ϵ_{θ}) - ϕ (ϵ) ∥_{2}$

使用预训练 VGG 网络提取特征，计算特征空间距离，提升视觉质量。

特定任务优化损失

条件对齐损失

$L_{align} = E [1 - sim (ϕ (x_{0}), ψ (y))]$

确保生成样本与条件信息的语义对齐。

对抗损失

$L_{adv} = E [lo g D (x_{0}) + lo g (1 - D (\overset{x}{^}_{0}))]$

结合 GAN 对抗训练，提升样本细节质量。

分类器引导损失

$L_{classifier} = E [CE (y, Classifier (\overset{x}{^}_{0}))]$

通过分类器梯度引导生成过程。

视频扩散模型专用损失

RFLoss

动态噪声调度：根据帧间时序依赖关系调整噪声权重
分布式计算优化：多 GPU 并行处理长视频序列
多类型损失兼容：同时支持噪声预测损失、感知损失

总结

损失类型	核心应用
L2 噪声预测	离散时间扩散模型基础
分数匹配	连续时间 SDE 框架
感知损失	提升视觉质量
条件对齐	多模态生成
对抗损失	细节增强

实际应用中常组合使用多种损失，平衡生成质量、训练效率和任务适配性。

知识花园

探索