- 张芷铭的个人博客

张芷铭的个人博客

📅 0001-01-01

T5通过统一的文本到文本框架处理各类NLP任务，采用Encoder-Decoder架构，相对位置编码，RMSNorm归一化。

核心架构

组件	说明
Encoder	双向理解，编码输入文本
Decoder	自回归生成，基于编码结果输出
相对位置编码	标量形式，映射到32个桶
RMSNorm	无偏置项，计算效率高于LayerNorm

编码流程

Tokenization：SentencePiece子词分词
词嵌入：ID映射为$d$维向量
相对位置编码：计算相对位置差$\delta = i - j$，查表获取标量加到注意力分数
Encoder堆栈：多头自注意力 + FFN + 残差连接

多头自注意力

$$\text{Attention} = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}} + S\right) V$$

其中$S$为相对位置编码标量矩阵。

T5系列规格

模型	层数	隐藏维度	注意力头
T5-Small	6	512	8
T5-Base	12	768	12
T5-Large	24	1024	16

核心论文

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

Comments