张芷铭的个人博客

TAESD 是 Stable Diffusion 原始 VAE 的微型蒸馏版本,通过大幅减少参数量(编码器/解码器均降至 122 万参数)实现高效编码解码,适合实时预览和资源受限场景。

模型定位

TAESD(Tiny Autoencoder for Stable Diffusion)是专为 Stable Diffusion 潜在空间设计的轻量级自编码器,兼容 SD1/2、SDXL、SD3 等多种变体。

技术原理

组件功能
编码器将全尺寸图像压缩为潜在表示(48 倍有损压缩),形状 4x(H/8)x(W/8),值范围 [-3, 3]
解码器从潜在表示重建图像,输出形状 3xHxW,值范围 [0, 1]

结构基于卷积层、ReLU 激活和上采样层,注重速度而非细节精度。

优势与局限

优势局限
解码速度可达原始 VAE 数十倍因模型简化,重建图像可能模糊
模型体积小,适合移动端部署以质量损失换取速度提升
支持编码和解码,可替代官方 VAE

应用场景

  • 实时预览:在 ComfyUI 或 Diffusers 中启用 --preview-method taesd
  • 快速原型开发:快速迭代的图像生成实验
  • 低资源设备:官方 VAE 不便使用的场景

获取与集成

  • Diffusersmadebyollin/taesd(safetensors 格式)
  • ComfyUI/A1111:下载 taesd_encoder.pthtaesd_decoder.pth

若需高质量输出,仍需依赖原始 VAE 或 OpenAI Consistency Decoder。

GitHub: https://github.com/madebyollin/taesd

Comments