张芷铭的个人博客

T5通过统一的文本到文本框架处理各类NLP任务,采用Encoder-Decoder架构,相对位置编码,RMSNorm归一化。

核心架构

组件说明
Encoder双向理解,编码输入文本
Decoder自回归生成,基于编码结果输出
相对位置编码标量形式,映射到32个桶
RMSNorm无偏置项,计算效率高于LayerNorm

编码流程

  1. Tokenization:SentencePiece子词分词
  2. 词嵌入:ID映射为$d$维向量
  3. 相对位置编码:计算相对位置差$\delta = i - j$,查表获取标量加到注意力分数
  4. Encoder堆栈:多头自注意力 + FFN + 残差连接

多头自注意力

$$\text{Attention} = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}} + S\right) V$$

其中$S$为相对位置编码标量矩阵。

T5系列规格

模型层数隐藏维度注意力头
T5-Small65128
T5-Base1276812
T5-Large24102416

核心论文

Comments