- 张芷铭的个人博客

因果注意力通过掩码约束，确保序列建模中当前位置仅能关注历史信息，避免未来信息泄露。

核心概念

因果注意力确保位置 $t$ 的输出仅依赖 ${x_1, \dots, x_t}$，适用于自回归生成任务。

在注意力分数矩阵上加下三角掩码：

$$\begin{bmatrix} 0 & -\infty & -\infty & -\infty \ 0 & 0 & -\infty & -\infty \ 0 & 0 & 0 & -\infty \ 0 & 0 & 0 & 0 \ \end{bmatrix}$$

$$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}} + M\right)V$$

其中 $M$ 为因果掩码矩阵。

核心逻辑：过去可追溯，未来不可见。