- 张芷铭的个人博客

扩散模型将生成过程视为逐步去噪，通过前向扩散将数据转换为噪声、反向过程学习恢复，在生成质量、训练稳定性、条件控制能力上取得显著突破。

生成模型演进

模型	核心思想	局限性
VAE	最大化证据下界近似数据分布	生成样本模糊，缺乏细节
GAN	对抗训练优化生成器和判别器	训练不稳定，模式崩溃
流模型	精确概率密度估计	高维数据计算复杂度高
扩散模型	逐步去噪过程	采样迭代次数多

扩散模型的突破

训练稳定性：最大化变分下界，确定性优化过程
样本质量：生成高分辨率、细节丰富样本
理论完备性：与 SDE/ODE 密切联系
灵活性：自然扩展到条件生成、多模态融合

基础原理

前向扩散过程

马尔可夫链，逐步添加高斯噪声：

$$q(x_t|x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t}x_{t-1}, \beta_t I)$$

累积参数化后：

$$x_t = \sqrt{\bar{\alpha}_t}x_0 + \sqrt{1-\bar{\alpha}_t}\epsilon$$

反向去噪过程

学习条件分布 $p_\theta(x_{t-1}|x_t)$：

$$p_\theta(x_{t-1}|x_t) = \mathcal{N}(x_{t-1}; \mu_\theta(x_t, t), \Sigma_\theta(x_t, t))$$

真实后验分布：

$$q(x_{t-1}|x_t, x_0) = \mathcal{N}(x_{t-1}; \tilde{\mu}(x_t, x_0), \tilde{\beta}_t I)$$

训练目标

简化损失函数：

$$\mathcal{L}{\text{simple}} = \mathbb{E}{t, x_0, \epsilon}[|\epsilon - \epsilon_\theta(x_t, t)|^2]$$

连续时间扩展

SDE 框架

$$dx_t = f(x_t, t)dt + g(t)dw_t$$

概率流 ODE

$$dx_t = [f(x_t, t) - \frac{1}{2}g(t)^2\nabla_{x_t}\log p_t(x_t)]dt$$

分数匹配

训练神经网络 $s_\theta(x_t, t)$ 估计得分函数 $\nabla_{x_t}\log p_t(x_t)$。

最新进展

采样加速技术

方法	核心思想
知识蒸馏	轻量级学生模型模仿教师采样轨迹
DDIM	非马尔可夫采样，显著减少步数
渐进式蒸馏	逐步减少采样步数

高效架构

架构	特点
DiT（Transformer 扩散）	全局注意力替代 CNN
DiffMoE	混合专家 + 动态令牌选择
潜空间扩散模型（LDM）	在压缩潜空间运行扩散

多模态与跨模态

Versatile Diffusion：多流多模态架构，文本-图像双向生成
GaussianAnything：高斯溅射 + 扩散，文本到 3D 生成
跨模态注意力：通过交叉注意力建立模态对应关系

条件生成与控制

方法	功能
CFG（无分类器引导）	全局语义级引导
ControlNet	像素级空间结构控制
IP-Adapter	特征级图像引导
DDPO	强化学习优化去噪策略

应用领域

计算机视觉

图像生成：Stable Diffusion、DALL-E 3、Imagen
图像编辑：RePaint、Inpaint、MagicEditor
视频生成：Sora、Lumiere

自然语言处理

文本生成：DiffuSeq、DiNoiSer
语音合成：DiffWave

科学与工业

分子设计：Graph Diffusion 模型
蛋白质结构预测：扩散 + AlphaFold
时间序列分析：天气预报、医疗数据填补

3D 内容创作

高斯溅射与扩散结合
几何-纹理解耦生成
AR/VR 实时交互

挑战与未来方向

当前瓶颈

挑战	说明
计算成本	大规模训练需数千 GPU，推理需数百次迭代
模式崩溃	高维数据多样性不足
离散数据处理	文本、语音的离散性建模难题

解决方案

分层扩散：从粗到精的多尺度生成
物理约束嵌入：化学规则、物理规律约束
自监督学习：对比学习预训练、自我条件技术

未来方向

多模态统一框架：文本/图像/语音/视频/3D 联合建模
实时交互系统：端侧低延迟生成、脑机接口
可持续 AI：碳足迹优化、可再生能源驱动训练

参考资料

核心论文见原文完整列表。