张芷铭的个人博客

扩散模型将生成过程视为逐步去噪,通过前向扩散将数据转换为噪声、反向过程学习恢复,在生成质量、训练稳定性、条件控制能力上取得显著突破。

生成模型演进

模型核心思想局限性
VAE最大化证据下界近似数据分布生成样本模糊,缺乏细节
GAN对抗训练优化生成器和判别器训练不稳定,模式崩溃
流模型精确概率密度估计高维数据计算复杂度高
扩散模型逐步去噪过程采样迭代次数多

扩散模型的突破

  1. 训练稳定性:最大化变分下界,确定性优化过程
  2. 样本质量:生成高分辨率、细节丰富样本
  3. 理论完备性:与 SDE/ODE 密切联系
  4. 灵活性:自然扩展到条件生成、多模态融合

基础原理

前向扩散过程

马尔可夫链,逐步添加高斯噪声:

$$q(x_t|x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t}x_{t-1}, \beta_t I)$$

累积参数化后:

$$x_t = \sqrt{\bar{\alpha}_t}x_0 + \sqrt{1-\bar{\alpha}_t}\epsilon$$

反向去噪过程

学习条件分布 $p_\theta(x_{t-1}|x_t)$:

$$p_\theta(x_{t-1}|x_t) = \mathcal{N}(x_{t-1}; \mu_\theta(x_t, t), \Sigma_\theta(x_t, t))$$

真实后验分布:

$$q(x_{t-1}|x_t, x_0) = \mathcal{N}(x_{t-1}; \tilde{\mu}(x_t, x_0), \tilde{\beta}_t I)$$

训练目标

简化损失函数:

$$\mathcal{L}{\text{simple}} = \mathbb{E}{t, x_0, \epsilon}[|\epsilon - \epsilon_\theta(x_t, t)|^2]$$

连续时间扩展

SDE 框架

$$dx_t = f(x_t, t)dt + g(t)dw_t$$

概率流 ODE

$$dx_t = [f(x_t, t) - \frac{1}{2}g(t)^2\nabla_{x_t}\log p_t(x_t)]dt$$

分数匹配

训练神经网络 $s_\theta(x_t, t)$ 估计得分函数 $\nabla_{x_t}\log p_t(x_t)$。

最新进展

采样加速技术

方法核心思想
知识蒸馏轻量级学生模型模仿教师采样轨迹
DDIM非马尔可夫采样,显著减少步数
渐进式蒸馏逐步减少采样步数

高效架构

架构特点
DiT(Transformer 扩散)全局注意力替代 CNN
DiffMoE混合专家 + 动态令牌选择
潜空间扩散模型(LDM)在压缩潜空间运行扩散

多模态与跨模态

  • Versatile Diffusion:多流多模态架构,文本-图像双向生成
  • GaussianAnything:高斯溅射 + 扩散,文本到 3D 生成
  • 跨模态注意力:通过交叉注意力建立模态对应关系

条件生成与控制

方法功能
CFG(无分类器引导)全局语义级引导
ControlNet像素级空间结构控制
IP-Adapter特征级图像引导
DDPO强化学习优化去噪策略

应用领域

计算机视觉

  • 图像生成:Stable Diffusion、DALL-E 3、Imagen
  • 图像编辑:RePaint、Inpaint、MagicEditor
  • 视频生成:Sora、Lumiere

自然语言处理

  • 文本生成:DiffuSeq、DiNoiSer
  • 语音合成:DiffWave

科学与工业

  • 分子设计:Graph Diffusion 模型
  • 蛋白质结构预测:扩散 + AlphaFold
  • 时间序列分析:天气预报、医疗数据填补

3D 内容创作

  • 高斯溅射与扩散结合
  • 几何-纹理解耦生成
  • AR/VR 实时交互

挑战与未来方向

当前瓶颈

挑战说明
计算成本大规模训练需数千 GPU,推理需数百次迭代
模式崩溃高维数据多样性不足
离散数据处理文本、语音的离散性建模难题

解决方案

  • 分层扩散:从粗到精的多尺度生成
  • 物理约束嵌入:化学规则、物理规律约束
  • 自监督学习:对比学习预训练、自我条件技术

未来方向

  1. 多模态统一框架:文本/图像/语音/视频/3D 联合建模
  2. 实时交互系统:端侧低延迟生成、脑机接口
  3. 可持续 AI:碳足迹优化、可再生能源驱动训练

参考资料

核心论文见原文完整列表。

Comments