T5通过统一的文本到文本框架处理各类NLP任务,采用Encoder-Decoder架构,相对位置编码,RMSNorm归一化。
核心架构
| 组件 | 说明 |
|---|---|
| Encoder | 双向理解,编码输入文本 |
| Decoder | 自回归生成,基于编码结果输出 |
| 相对位置编码 | 标量形式,映射到32个桶 |
| RMSNorm | 无偏置项,计算效率高于LayerNorm |
编码流程
- Tokenization:SentencePiece子词分词
- 词嵌入:ID映射为$d$维向量
- 相对位置编码:计算相对位置差$\delta = i - j$,查表获取标量加到注意力分数
- Encoder堆栈:多头自注意力 + FFN + 残差连接
多头自注意力
$$\text{Attention} = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}} + S\right) V$$
其中$S$为相对位置编码标量矩阵。
T5系列规格
| 模型 | 层数 | 隐藏维度 | 注意力头 |
|---|---|---|---|
| T5-Small | 6 | 512 | 8 |
| T5-Base | 12 | 768 | 12 |
| T5-Large | 24 | 1024 | 16 |
张芷铭的个人博客
Comments