- 张芷铭的个人博客

Transformer通过自注意力机制实现序列建模，是现代大语言模型的基础架构。

核心架构

类型	归一化维度	适用场景
BatchNorm	每个特征	CV任务
LayerNorm	每个样本	NLP任务

[[原始 Transformer 模型超详细拆解：每个模块、参数与计算逻辑]]