原始Transformer模型中的计算细节

Transformer 输入流动：嵌入→编码器 6 层→解码器 6 层→线性变换→Softmax 输出概率。

编码器输入处理

嵌入层

Token 通过嵌入矩阵 $W_{e mb e d} \in R^{V \times d_{m o d e l}}$ 映射为向量，缩放：

$E_{scaled} = E \times d_{m o d e l}$

位置编码

$P E_{(p os, 2 i)} = sin (p os /1000 0^{2 i / d_{m o d e l}})$ $P E_{(p os, 2 i + 1)} = cos (p os /1000 0^{2 i / d_{m o d e l}})$

编码器输入： $X_{enc} = E_{scaled} + PE$

编码器层（×6）

多头自注意力

线性投影（ $h = 8$ 头）：

$Q_{i} = X \cdot W_{i}^{Q}, K_{i} = X \cdot W_{i}^{K}, V_{i} = X \cdot W_{i}^{V}$

缩放点积注意力：

$h e a d_{i} = softmax (\frac{Q _{i} \cdot K _{i}^{T}}{d _{k}}) \cdot V_{i}$

拼接与投影：

$A tt e n t i o n_{output} = C o n c a t (h e a d_{1}, ..., h e a d_{8}) \cdot W^{O}$

残差连接 + LayerNorm： $X_{1} = LayerNorm (X + A tt e n t i o n_{output})$

前馈网络

$FFN (X_{1}) = max (0, X_{1} \cdot W_{1} + b_{1}) \cdot W_{2} + b_{2}$

维度： $512 \to 2048 \to 512$

解码器输入处理

目标序列右移一位，确保生成第 $i$ 个 token 仅依赖前 $i - 1$ 个 token。

解码器层（×6）

掩码自注意力

将未来位置（ $ro w < co l$ ）设为 $- \infty$ ，softmax 后权重为 0。

编码器-解码器注意力

Q 来自解码器
K、V 来自编码器输出 Z

前馈网络

与编码器一致。

输出预测

$L o g i t s = Y_{final} \cdot W_{e mb e d}^{T}$ $P (token) = softmax (L o g i t s)$

维度参数

参数	值
$d_{m o d e l}$	512
$h$ （头数）	8
$d_{k}, d_{v}$	64
$d_{ff}$	2048
编码器/解码器层数	6

数据流总结

源语言 token → 嵌入+位置编码 → 编码器 6 层 → Z

目标语言 token（右移）→ 嵌入+位置编码 → 解码器 6 层 → 线性+Softmax → 概率

知识花园

探索

原始Transformer模型中的计算细节

编码器输入处理

嵌入层

位置编码

编码器层（×6）

多头自注意力

前馈网络

解码器输入处理

解码器层（×6）

掩码自注意力

编码器-解码器注意力

前馈网络

输出预测

维度参数

数据流总结

关系图谱

目录