本文中SSL特指自监督学习(Self-Supervised Learning),VQ特指矢量量化(Vector Quantization),避免与网络安全领域的SSL混淆。
引言
自监督学习(SSL)已成为解决标注数据稀缺、学习通用可迁移表征的核心范式——从NLP领域的BERT、GPT,到CV领域的MAE、BEiT,再到语音领域的Wav2Vec 2.0,SSL重构了各模态模型的预训练体系。
但传统SSL学习到的连续高维表征存在瓶颈:语义碎片化、特征冗余度高、与离散生成范式适配性差、跨模态语义对齐难度大。矢量量化(VQ)将连续特征映射到有限、可解释的离散码本空间,恰好解决了这些痛点。
SSL VQ训练将矢量量化与自监督学习深度融合:以无标注数据为基础,通过自监督构造学习信号,同时用矢量量化将连续特征锚定到离散语义空间,学习兼具强泛化性、高语义一致性、适配生成与理解任务的通用表征。
核心基础概念
自监督学习(SSL)
核心是不依赖人工标注,从数据本身构造监督信号,让模型学习数据的底层语义与结构特征。
| 范式 | 核心原理 | 代表工作 |
|---|---|---|
| 对比学习 | 拉近正样本对、推远负样本对 | MoCo、SimCLR、CLIP |
| 掩码建模 | 掩码部分内容,预测原始信息 | BERT(MLM)、MAE、BEiT |
| 生成式自监督 | 重构输入数据、生成一致样本 | VAE、GAN、VQ-VAE |
矢量量化(VQ)
核心是将连续高维矢量映射到有限离散码本中,用距离最近的码字替代原始矢量。
对于输入特征向量 $z \in \mathbb{R}^D$,定义码本矩阵 $E \in \mathbb{R}^{K \times D}$($K$为码本大小),量化公式为:
$$ z_q = e_k, \quad k = \arg\min_{i \in [1,K]} | z - e_i |_2 $$
VQ的核心能力:
| 能力 | 说明 |
|---|---|
| 离散化与降冗余 | 将无限连续空间压缩到有限离散空间,过滤特征噪声 |
| 语义锚定与聚合 | 强制相似语义特征映射到同一码字,解决语义碎片化 |
| 词汇化能力 | 离散码字索引等价于学习了一套基础"词汇表" |
| 跨模态对齐 | 不同模态特征可映射到共享离散码本空间 |
SSL与VQ结合的核心动机
解决语义碎片化
连续特征空间中,语义相似的输入可能对应差异极大的特征向量。VQ通过离散化强制相似语义特征聚合到同一码字,为每个语义概念分配唯一"标识"。
适配大模型离散生成范式
主流生成式大模型(GPT、LLaMA、DALL-E)均基于离散token的自回归/掩码生成范式。SSL VQ训练端到端学习离散token表征,预训练得到的码字索引可直接输入生成模型。
缓解对比学习的负样本依赖
传统对比学习需要大量负样本和超大动量队列。SSL VQ训练中,码本本身是天然的负样本库:每个输入对应的码字是正样本,其余码字都是负样本。
降低跨模态语义对齐难度
不同模态特征分布差异极大,连续空间对比对齐难度高。SSL VQ为不同模态学习共享离散码本,将对齐从"分布对齐"简化为"码字语义对齐"。
SSL VQ训练的核心架构
标准端到端训练流程:
| |
核心难点1:不可导操作的梯度回传
VQ量化的 $\arg\min$ 操作不可导。主流解决方案是直通估计器(STE):
- 前向传播:严格执行量化,输出最近邻码字 $z_q = e_k$
- 反向传播:跳过量化,将梯度直接复制给编码器输出:$\frac{\partial \mathcal{L}}{\partial z} = \frac{\partial \mathcal{L}}{\partial z_q}$
替代方案Gumbel-Softmax实现可微分离散采样,在Wav2Vec 2.0中广泛使用。
核心难点2:码本坍塌
训练中只有极少数码字被持续选中,绝大多数成为"死码字",码本有效容量大幅下降。
解决方案:EMA动量更新码本
用指数移动平均替代梯度下降更新码本:
$$ n_i^{(t)} = \gamma \cdot n_i^{(t-1)} + (1-\gamma) \cdot N_i^{(t)} $$
$$ m_i^{(t)} = \gamma \cdot m_i^{(t-1)} + (1-\gamma) \cdot \sum_{z \in B_i^{(t)}} z $$
$$ e_i^{(t)} = \frac{m_i^{(t)}}{n_i^{(t)} + \epsilon} $$
其中 $\gamma$ 通常取0.99,码本更新基于实际被访问的特征分布,平滑跟随编码器变化。
损失函数设计
$$ \mathcal{L}{total} = \mathcal{L}{ssl} + \mathcal{L}{commit} + \mathcal{L}{codebook} $$
| 损失项 | 公式 | 作用 |
|---|---|---|
| 主自监督损失 $\mathcal{L}_{ssl}$ | 根据范式选择 | 学习有效语义表征 |
| 码本对齐损失 $\mathcal{L}_{commit}$ | $\beta \cdot | \text{sg}(z) - e_k |_2^2$ | 强制编码器向码字靠拢 |
| 码本更新损失 $\mathcal{L}_{codebook}$ | $| z - \text{sg}(e_k) |_2^2$ | 更新码本(EMA时无需) |
里程碑式算法
VQ-VAE与VQ-VAE-2(NeurIPS 2017/2019)
开山之作,奠定了:
- 端到端VQ自编码器架构
- STE直通估计器
- EMA码本更新
- 验证离散表征的生成能力
VQ-VAE-2引入分层多尺度VQ量化,实现百万像素级高保真图像生成。
Wav2Vec 2.0(NeurIPS 2020)
SSL VQ在语音领域最成功的应用:
- CNN+Transformer混合编码器
- 乘积量化(PQ)的VQ层
- Gumbel-Softmax可微分采样
- 掩码建模+对比学习双任务SSL
- 仅用10分钟标注数据达到数千小时监督模型精度
BEiT(2021)
首次将BERT式掩码建模引入CV:
- 两阶段预训练:VQ-VAE tokenizer → BERT式掩码预测
- 离散token预测替代像素重构
- 强制模型学习高层语义结构
VQGAN(CVPR 2021)
AIGC核心基础算法,Stable Diffusion、DALL-E图像tokenizer均基于此:
- VQ-VAE + GAN融合架构
- 多目标损失:重构 + 对抗 + 感知 + commitment
- 实现文本到图像高保真生成
工程实践关键技巧
码本设计准则
| 参数 | 选择建议 |
|---|---|
| 码本大小 $K$ | 取2的幂次(8192/16384);CV常用8192-32768,语音常用512-1024 |
| 码本维度 $D$ | 与编码器输出一致;CV常用128-256,语音常用64-128 |
| 单码本 vs 乘积量化 | $K>4096$时优先PQ,将$D$分为M=2/4子维度 |
码本坍塌进阶解决方案
- 死码字定期重启:超预设步数未被选中的码字,用当前特征随机采样重置
- 码本正交正则化:$\mathcal{L}_{ortho} = \lambda \cdot | E E^T - I |_F^2$
- 对比式码本学习:强制输入特征与选中码字相似度高,与其余码字相似度低
- 温度退火策略:Gumbel-Softmax训练初期高温度(τ=5.0),后期降至τ=0.1
训练稳定性提升
- 梯度裁剪:最大范数1.0
- commitment loss权重β:默认0.25,坍塌时增至0.5-1.0
- 码本学习率:编码器学习率的1/10-1/100
- 混合精度:距离计算放在FP32精度
产业级应用
| 领域 | 应用 |
|---|---|
| 计算机视觉 | Backbone预训练(BEiT、MAE-VQ)、AIGC文生图(VQGAN)、视频理解与生成 |
| 语音音频 | ASR(Wav2Vec 2.0、HuBERT)、TTS(VITS、Voicebox)、音频生成(MusicGen) |
| NLP与多模态 | LLM词嵌入量化、多模态大模型视觉tokenizer、跨模态检索 |
| 其他领域 | 点云处理、生物信息学(AlphaFold3)、推荐系统 |
当前挑战与未来方向
核心挑战
- 码本坍塌的根本解决
- 量化误差与信息保留的权衡
- 大码本训练与推理效率
- 码本可解释性不足
- 多模态共享码本语义对齐
未来方向
- 端到端统一SSL VQ预训练
- 神经符号化VQ学习
- 动态自适应码本学习
- 高效轻量化量化算法
- 通用人工智能基础语义体系
参考文献
[1] van den Oord A, et al. Neural discrete representation learning. NeurIPS 2017. [2] Razavi A, et al. Generating diverse high-fidelity images with VQ-VAE-2. NeurIPS 2019. [3] Baevski A, et al. wav2vec 2.0: A framework for self-supervised learning of speech representations. NeurIPS 2020. [4] Bao H, et al. BEiT: BERT pre-training of image transformers. 2021. [5] Esser P, et al. Taming transformers for high-resolution image synthesis. CVPR 2021.
张芷铭的个人博客
Comments