Transformer 输入流动:嵌入→编码器 6 层→解码器 6 层→线性变换→Softmax 输出概率。
编码器输入处理
嵌入层
Token 通过嵌入矩阵 映射为向量,缩放:
位置编码
编码器输入:
编码器层(×6)
多头自注意力
线性投影( 头):
缩放点积注意力:
拼接与投影:
残差连接 + LayerNorm:
前馈网络
维度:
解码器输入处理
目标序列右移一位,确保生成第 个 token 仅依赖前 个 token。
解码器层(×6)
掩码自注意力
将未来位置()设为 ,softmax 后权重为 0。
编码器-解码器注意力
- Q 来自解码器
- K、V 来自编码器输出 Z
前馈网络
与编码器一致。
输出预测
维度参数
| 参数 | 值 |
|---|---|
| 512 | |
| (头数) | 8 |
| 64 | |
| 2048 | |
| 编码器/解码器层数 | 6 |
数据流总结
源语言 token → 嵌入+位置编码 → 编码器 6 层 → Z
目标语言 token(右移)→ 嵌入+位置编码 → 解码器 6 层 → 线性+Softmax → 概率