张芷铭的个人博客

本文中SSL特指自监督学习(Self-Supervised Learning),VQ特指矢量量化(Vector Quantization),避免与网络安全领域的SSL混淆。

引言

自监督学习(SSL)已成为解决标注数据稀缺、学习通用可迁移表征的核心范式——从NLP领域的BERT、GPT,到CV领域的MAE、BEiT,再到语音领域的Wav2Vec 2.0,SSL重构了各模态模型的预训练体系。

但传统SSL学习到的连续高维表征存在瓶颈:语义碎片化、特征冗余度高、与离散生成范式适配性差、跨模态语义对齐难度大。矢量量化(VQ)将连续特征映射到有限、可解释的离散码本空间,恰好解决了这些痛点。

SSL VQ训练将矢量量化与自监督学习深度融合:以无标注数据为基础,通过自监督构造学习信号,同时用矢量量化将连续特征锚定到离散语义空间,学习兼具强泛化性、高语义一致性、适配生成与理解任务的通用表征。

核心基础概念

自监督学习(SSL)

核心是不依赖人工标注,从数据本身构造监督信号,让模型学习数据的底层语义与结构特征。

范式核心原理代表工作
对比学习拉近正样本对、推远负样本对MoCo、SimCLR、CLIP
掩码建模掩码部分内容,预测原始信息BERT(MLM)、MAE、BEiT
生成式自监督重构输入数据、生成一致样本VAE、GAN、VQ-VAE

矢量量化(VQ)

核心是将连续高维矢量映射到有限离散码本中,用距离最近的码字替代原始矢量

对于输入特征向量 $z \in \mathbb{R}^D$,定义码本矩阵 $E \in \mathbb{R}^{K \times D}$($K$为码本大小),量化公式为:

$$ z_q = e_k, \quad k = \arg\min_{i \in [1,K]} | z - e_i |_2 $$

VQ的核心能力:

能力说明
离散化与降冗余将无限连续空间压缩到有限离散空间,过滤特征噪声
语义锚定与聚合强制相似语义特征映射到同一码字,解决语义碎片化
词汇化能力离散码字索引等价于学习了一套基础"词汇表"
跨模态对齐不同模态特征可映射到共享离散码本空间

SSL与VQ结合的核心动机

解决语义碎片化

连续特征空间中,语义相似的输入可能对应差异极大的特征向量。VQ通过离散化强制相似语义特征聚合到同一码字,为每个语义概念分配唯一"标识"。

适配大模型离散生成范式

主流生成式大模型(GPT、LLaMA、DALL-E)均基于离散token的自回归/掩码生成范式。SSL VQ训练端到端学习离散token表征,预训练得到的码字索引可直接输入生成模型。

缓解对比学习的负样本依赖

传统对比学习需要大量负样本和超大动量队列。SSL VQ训练中,码本本身是天然的负样本库:每个输入对应的码字是正样本,其余码字都是负样本。

降低跨模态语义对齐难度

不同模态特征分布差异极大,连续空间对比对齐难度高。SSL VQ为不同模态学习共享离散码本,将对齐从"分布对齐"简化为"码字语义对齐"。

SSL VQ训练的核心架构

标准端到端训练流程:

1
输入数据 → 特征编码器 → 连续特征映射 → VQ量化层 → 离散量化特征 → 解码器/预测头 → 自监督损失 → 反向传播

核心难点1:不可导操作的梯度回传

VQ量化的 $\arg\min$ 操作不可导。主流解决方案是直通估计器(STE)

  • 前向传播:严格执行量化,输出最近邻码字 $z_q = e_k$
  • 反向传播:跳过量化,将梯度直接复制给编码器输出:$\frac{\partial \mathcal{L}}{\partial z} = \frac{\partial \mathcal{L}}{\partial z_q}$

替代方案Gumbel-Softmax实现可微分离散采样,在Wav2Vec 2.0中广泛使用。

核心难点2:码本坍塌

训练中只有极少数码字被持续选中,绝大多数成为"死码字",码本有效容量大幅下降。

解决方案:EMA动量更新码本

用指数移动平均替代梯度下降更新码本:

$$ n_i^{(t)} = \gamma \cdot n_i^{(t-1)} + (1-\gamma) \cdot N_i^{(t)} $$

$$ m_i^{(t)} = \gamma \cdot m_i^{(t-1)} + (1-\gamma) \cdot \sum_{z \in B_i^{(t)}} z $$

$$ e_i^{(t)} = \frac{m_i^{(t)}}{n_i^{(t)} + \epsilon} $$

其中 $\gamma$ 通常取0.99,码本更新基于实际被访问的特征分布,平滑跟随编码器变化。

损失函数设计

$$ \mathcal{L}{total} = \mathcal{L}{ssl} + \mathcal{L}{commit} + \mathcal{L}{codebook} $$

损失项公式作用
主自监督损失 $\mathcal{L}_{ssl}$根据范式选择学习有效语义表征
码本对齐损失 $\mathcal{L}_{commit}$$\beta \cdot | \text{sg}(z) - e_k |_2^2$强制编码器向码字靠拢
码本更新损失 $\mathcal{L}_{codebook}$$| z - \text{sg}(e_k) |_2^2$更新码本(EMA时无需)

里程碑式算法

VQ-VAE与VQ-VAE-2(NeurIPS 2017/2019)

开山之作,奠定了:

  • 端到端VQ自编码器架构
  • STE直通估计器
  • EMA码本更新
  • 验证离散表征的生成能力

VQ-VAE-2引入分层多尺度VQ量化,实现百万像素级高保真图像生成。

Wav2Vec 2.0(NeurIPS 2020)

SSL VQ在语音领域最成功的应用:

  • CNN+Transformer混合编码器
  • 乘积量化(PQ)的VQ层
  • Gumbel-Softmax可微分采样
  • 掩码建模+对比学习双任务SSL
  • 仅用10分钟标注数据达到数千小时监督模型精度

BEiT(2021)

首次将BERT式掩码建模引入CV:

  • 两阶段预训练:VQ-VAE tokenizer → BERT式掩码预测
  • 离散token预测替代像素重构
  • 强制模型学习高层语义结构

VQGAN(CVPR 2021)

AIGC核心基础算法,Stable Diffusion、DALL-E图像tokenizer均基于此:

  • VQ-VAE + GAN融合架构
  • 多目标损失:重构 + 对抗 + 感知 + commitment
  • 实现文本到图像高保真生成

工程实践关键技巧

码本设计准则

参数选择建议
码本大小 $K$取2的幂次(8192/16384);CV常用8192-32768,语音常用512-1024
码本维度 $D$与编码器输出一致;CV常用128-256,语音常用64-128
单码本 vs 乘积量化$K>4096$时优先PQ,将$D$分为M=2/4子维度

码本坍塌进阶解决方案

  1. 死码字定期重启:超预设步数未被选中的码字,用当前特征随机采样重置
  2. 码本正交正则化:$\mathcal{L}_{ortho} = \lambda \cdot | E E^T - I |_F^2$
  3. 对比式码本学习:强制输入特征与选中码字相似度高,与其余码字相似度低
  4. 温度退火策略:Gumbel-Softmax训练初期高温度(τ=5.0),后期降至τ=0.1

训练稳定性提升

  • 梯度裁剪:最大范数1.0
  • commitment loss权重β:默认0.25,坍塌时增至0.5-1.0
  • 码本学习率:编码器学习率的1/10-1/100
  • 混合精度:距离计算放在FP32精度

产业级应用

领域应用
计算机视觉Backbone预训练(BEiT、MAE-VQ)、AIGC文生图(VQGAN)、视频理解与生成
语音音频ASR(Wav2Vec 2.0、HuBERT)、TTS(VITS、Voicebox)、音频生成(MusicGen)
NLP与多模态LLM词嵌入量化、多模态大模型视觉tokenizer、跨模态检索
其他领域点云处理、生物信息学(AlphaFold3)、推荐系统

当前挑战与未来方向

核心挑战

  • 码本坍塌的根本解决
  • 量化误差与信息保留的权衡
  • 大码本训练与推理效率
  • 码本可解释性不足
  • 多模态共享码本语义对齐

未来方向

  • 端到端统一SSL VQ预训练
  • 神经符号化VQ学习
  • 动态自适应码本学习
  • 高效轻量化量化算法
  • 通用人工智能基础语义体系

参考文献

[1] van den Oord A, et al. Neural discrete representation learning. NeurIPS 2017. [2] Razavi A, et al. Generating diverse high-fidelity images with VQ-VAE-2. NeurIPS 2019. [3] Baevski A, et al. wav2vec 2.0: A framework for self-supervised learning of speech representations. NeurIPS 2020. [4] Bao H, et al. BEiT: BERT pre-training of image transformers. 2021. [5] Esser P, et al. Taming transformers for high-resolution image synthesis. CVPR 2021.

Comments