Transformer 输入流动:嵌入→编码器 6 层→解码器 6 层→线性变换→Softmax 输出概率。

编码器输入处理

嵌入层

Token 通过嵌入矩阵 映射为向量,缩放:

位置编码

编码器输入:

编码器层(×6)

多头自注意力

线性投影 头):

缩放点积注意力

拼接与投影

残差连接 + LayerNorm:

前馈网络

维度:

解码器输入处理

目标序列右移一位,确保生成第 个 token 仅依赖前 个 token。

解码器层(×6)

掩码自注意力

将未来位置()设为 ,softmax 后权重为 0。

编码器-解码器注意力

  • Q 来自解码器
  • K、V 来自编码器输出 Z

前馈网络

与编码器一致。

输出预测

维度参数

参数
512
(头数)8
64
2048
编码器/解码器层数6

数据流总结

源语言 token → 嵌入+位置编码 → 编码器 6 层 → Z

目标语言 token(右移)→ 嵌入+位置编码 → 解码器 6 层 → 线性+Softmax → 概率