张芷铭的个人博客

Transformer通过自注意力机制实现序列建模,是现代大语言模型的基础架构。

核心架构

组件说明
Multi-Head Attention多头自注意力,捕获不同位置关系
Feed-Forward Network两层全连接,非线性变换
Layer Normalization层归一化,稳定训练
Positional Encoding位置编码,注入序列顺序信息

归一化对比

类型归一化维度适用场景
BatchNorm每个特征CV任务
LayerNorm每个样本NLP任务

学习资源

[[原始 Transformer 模型超详细拆解:每个模块、参数与计算逻辑]]

Comments