GEMM(General Matrix Multiplication)是深度学习和 HPC 的核心运算,现代 AI 芯片均针对其优化。
定义
GEMM 执行通用矩阵乘法:
$$C = \alpha \cdot A \times B + \beta \cdot C$$
| 参数 | 说明 |
|---|---|
| A, B | 输入矩阵 |
| C | 输入/输出矩阵 |
| α, β | 标量系数 |
典型配置:
α=1, β=0:纯乘法$C = A \times B$α=1, β=1:乘累加$C = A \times B + C$
为什么重要
GEMM 是神经网络的核心计算单元:
- 全连接层:$Y = WX + b$本质是 GEMM
- 卷积层:可通过 im2col 转换为 GEMM
- 注意力机制:$QK^T$和$Softmax \times V$均为矩阵乘法
硬件优化
| 硬件 | GEMM 加速单元 |
|---|---|
| NVIDIA GPU | Tensor Core |
| AMD GPU | Matrix Core |
| 华为昇腾 | Cube Core |
| Intel CPU | AMX 指令集 |
优化 GEMM 性能是提升 AI 模型训练推理效率的关键路径。
张芷铭的个人博客
Comments