TAESD 是 Stable Diffusion 原始 VAE 的微型蒸馏版本,通过大幅减少参数量(编码器/解码器均降至 122 万参数)实现高效编码解码,适合实时预览和资源受限场景。
模型定位
TAESD(Tiny Autoencoder for Stable Diffusion)是专为 Stable Diffusion 潜在空间设计的轻量级自编码器,兼容 SD1/2、SDXL、SD3 等多种变体。
技术原理
| 组件 | 功能 |
|---|---|
| 编码器 | 将全尺寸图像压缩为潜在表示(48 倍有损压缩),形状 4x(H/8)x(W/8),值范围 [-3, 3] |
| 解码器 | 从潜在表示重建图像,输出形状 3xHxW,值范围 [0, 1] |
结构基于卷积层、ReLU 激活和上采样层,注重速度而非细节精度。
优势与局限
| 优势 | 局限 |
|---|---|
| 解码速度可达原始 VAE 数十倍 | 因模型简化,重建图像可能模糊 |
| 模型体积小,适合移动端部署 | 以质量损失换取速度提升 |
| 支持编码和解码,可替代官方 VAE |
应用场景
- 实时预览:在 ComfyUI 或 Diffusers 中启用
--preview-method taesd - 快速原型开发:快速迭代的图像生成实验
- 低资源设备:官方 VAE 不便使用的场景
获取与集成
- Diffusers:
madebyollin/taesd(safetensors 格式) - ComfyUI/A1111:下载
taesd_encoder.pth和taesd_decoder.pth
若需高质量输出,仍需依赖原始 VAE 或 OpenAI Consistency Decoder。
张芷铭的个人博客
Comments