Diffusion Model

Diffusion Model 基于马尔可夫链实现逐步加噪与去噪，已成为生成式 AI 的核心引擎。

定义与发展历程

Diffusion Model 是一类基于马尔可夫链的生成式模型，通过逐步添加噪声破坏数据分布，再学习逆向去噪过程重建数据。受非平衡统计物理学启发，该模型通过前向扩散系统性破坏数据结构，再通过反向扩散恢复结构。

发展里程碑

阶段	模型	贡献
奠基	DDPM	建立加噪-去噪基本范式
效率突破	DDIM	确定性采样加速，生成速度提升 10×
跨模态演进	Stable Diffusion	潜在空间操作，显著降低计算开销
工业应用	GLIDE	文本引导图像生成

核心原理

前向扩散过程

将原始数据 $X_{0}$ 逐步转化为高斯噪声：

$X_{t} = α_{t} X_{t - 1} + 1 - α_{t} Z_{t}, Z_{t} \sim N (0, I)$

闭式解：

$q (X_{t} ∣ X_{0}) = N (X_{t}; \overset{α}{ˉ}_{t} X_{0}, (1 - \overset{α}{ˉ}_{t}) I)$

其中 $\overset{α}{ˉ}_{t} = \prod_{i = 1}^{t} α_{i}$ ， $α_{t} = 1 - β_{t}$ ， $β_{t}$ 为噪声调度系数。

逆向去噪过程

学习映射 $p_{θ} (X_{t - 1} ∣ X_{t})$ 以重建数据。通过变分推断优化变分下界（ELBO）：

$L_{VLB} = E_{q} [lo g \frac{q ( X _{1 : T} ∣ X _{0} )}{p _{θ} ( X _{0 : T} )}]$

分解为逐时间步的 KL 散度项：

$L_{t} = D_{KL} (q (X_{t} ∣ X_{t + 1}, X_{0}) ∥ p_{θ} (X_{t} ∣ X_{t + 1}))$

训练目标简化

通过参数重整化，目标简化为噪声预测任务：

$L_{simple} = E_{t, X_{0}, ϵ} [∥ ϵ - ϵ_{θ} (X_{t}, t) ∥^{2}]$

U-Net 模型 $ϵ_{θ}$ 学习预测添加的噪声。

关键技术

噪声调度策略

策略	公式	优势	局限
线性调度	$β_{t} = β_{m i n} + (β_{m a x} - β_{m i n}) \frac{t}{T}$	实现简单	噪声增减不均衡
余弦调度	$\overset{α}{ˉ}_{t} = \frac{c o s ( t / T \cdot π /2 )}{c o s ( π /2 )}$	平滑过渡，保留细节	计算复杂度较高

U-Net 架构改进

class UNet(nn.Module):
    def __init__(self, input_channels=3, output_channels=3):
        super().__init__()
        self.down1 = DownsampleBlock(64)
        self.attn1 = SelfAttentionBlock(128)
        self.up1 = UpsampleBlock(256)
        self.conv_out = nn.Conv2d(64, 3, kernel_size=1)

核心改进：

残差块替换为自注意力块（Multi-Head Attention）
时间步嵌入通过加法/乘法融入各层
跳跃连接保留空间信息完整性

应用场景

领域	案例	技术亮点
图像生成	Stable Diffusion	潜在空间扩散，512×512 生成仅需 2 秒
图像编辑	GLIDE	文本引导局部编辑
视频生成	Make-A-Video	时间维度扩散，帧间一致性保持
科学计算	AlphaFold3	蛋白质结构扩散生成

采样代码示例

def ddpm_sampling(model, noise, T, alpha_bars):
    x = noise
    for t in range(T, 0, -1):
        z = torch.randn_like(x) if t > 1 else 0
        eps = model(x, t)
        x = (1 / torch.sqrt(alpha_bars[t])) * \
             (x - (1 - alpha_bars[t]) / torch.sqrt(1 - alpha_bars[t]) * eps) + \
             torch.sqrt(1 - alpha_bars[t]) * z
    return x

知识花园

探索

Diffusion Model

定义与发展历程

发展里程碑

核心原理

前向扩散过程

逆向去噪过程

训练目标简化

关键技术

噪声调度策略

U-Net 架构改进

应用场景

最新进展

EDM2 架构

一致性模型

多模态融合

采样代码示例

扩展阅读

关系图谱

目录