扩散模型将生成过程视为逐步去噪,通过前向扩散将数据转换为噪声、反向过程学习恢复,在生成质量、训练稳定性、条件控制能力上取得显著突破。
生成模型演进
| 模型 | 核心思想 | 局限性 |
|---|---|---|
| VAE | 最大化证据下界近似数据分布 | 生成样本模糊,缺乏细节 |
| GAN | 对抗训练优化生成器和判别器 | 训练不稳定,模式崩溃 |
| 流模型 | 精确概率密度估计 | 高维数据计算复杂度高 |
| 扩散模型 | 逐步去噪过程 | 采样迭代次数多 |
扩散模型的突破
- 训练稳定性:最大化变分下界,确定性优化过程
- 样本质量:生成高分辨率、细节丰富样本
- 理论完备性:与 SDE/ODE 密切联系
- 灵活性:自然扩展到条件生成、多模态融合
基础原理
前向扩散过程
马尔可夫链,逐步添加高斯噪声:
$$q(x_t|x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t}x_{t-1}, \beta_t I)$$
累积参数化后:
$$x_t = \sqrt{\bar{\alpha}_t}x_0 + \sqrt{1-\bar{\alpha}_t}\epsilon$$
反向去噪过程
学习条件分布 $p_\theta(x_{t-1}|x_t)$:
$$p_\theta(x_{t-1}|x_t) = \mathcal{N}(x_{t-1}; \mu_\theta(x_t, t), \Sigma_\theta(x_t, t))$$
真实后验分布:
$$q(x_{t-1}|x_t, x_0) = \mathcal{N}(x_{t-1}; \tilde{\mu}(x_t, x_0), \tilde{\beta}_t I)$$
训练目标
简化损失函数:
$$\mathcal{L}{\text{simple}} = \mathbb{E}{t, x_0, \epsilon}[|\epsilon - \epsilon_\theta(x_t, t)|^2]$$
连续时间扩展
SDE 框架
$$dx_t = f(x_t, t)dt + g(t)dw_t$$
概率流 ODE
$$dx_t = [f(x_t, t) - \frac{1}{2}g(t)^2\nabla_{x_t}\log p_t(x_t)]dt$$
分数匹配
训练神经网络 $s_\theta(x_t, t)$ 估计得分函数 $\nabla_{x_t}\log p_t(x_t)$。
最新进展
采样加速技术
| 方法 | 核心思想 |
|---|---|
| 知识蒸馏 | 轻量级学生模型模仿教师采样轨迹 |
| DDIM | 非马尔可夫采样,显著减少步数 |
| 渐进式蒸馏 | 逐步减少采样步数 |
高效架构
| 架构 | 特点 |
|---|---|
| DiT(Transformer 扩散) | 全局注意力替代 CNN |
| DiffMoE | 混合专家 + 动态令牌选择 |
| 潜空间扩散模型(LDM) | 在压缩潜空间运行扩散 |
多模态与跨模态
- Versatile Diffusion:多流多模态架构,文本-图像双向生成
- GaussianAnything:高斯溅射 + 扩散,文本到 3D 生成
- 跨模态注意力:通过交叉注意力建立模态对应关系
条件生成与控制
| 方法 | 功能 |
|---|---|
| CFG(无分类器引导) | 全局语义级引导 |
| ControlNet | 像素级空间结构控制 |
| IP-Adapter | 特征级图像引导 |
| DDPO | 强化学习优化去噪策略 |
应用领域
计算机视觉
- 图像生成:Stable Diffusion、DALL-E 3、Imagen
- 图像编辑:RePaint、Inpaint、MagicEditor
- 视频生成:Sora、Lumiere
自然语言处理
- 文本生成:DiffuSeq、DiNoiSer
- 语音合成:DiffWave
科学与工业
- 分子设计:Graph Diffusion 模型
- 蛋白质结构预测:扩散 + AlphaFold
- 时间序列分析:天气预报、医疗数据填补
3D 内容创作
- 高斯溅射与扩散结合
- 几何-纹理解耦生成
- AR/VR 实时交互
挑战与未来方向
当前瓶颈
| 挑战 | 说明 |
|---|---|
| 计算成本 | 大规模训练需数千 GPU,推理需数百次迭代 |
| 模式崩溃 | 高维数据多样性不足 |
| 离散数据处理 | 文本、语音的离散性建模难题 |
解决方案
- 分层扩散:从粗到精的多尺度生成
- 物理约束嵌入:化学规则、物理规律约束
- 自监督学习:对比学习预训练、自我条件技术
未来方向
- 多模态统一框架:文本/图像/语音/视频/3D 联合建模
- 实时交互系统:端侧低延迟生成、脑机接口
- 可持续 AI:碳足迹优化、可再生能源驱动训练
参考资料
核心论文见原文完整列表。
张芷铭的个人博客
Comments