张芷铭的个人博客

GEMM(General Matrix Multiplication)是深度学习和 HPC 的核心运算,现代 AI 芯片均针对其优化。

定义

GEMM 执行通用矩阵乘法:

$$C = \alpha \cdot A \times B + \beta \cdot C$$

参数说明
A, B输入矩阵
C输入/输出矩阵
α, β标量系数

典型配置

  • α=1, β=0:纯乘法$C = A \times B$
  • α=1, β=1:乘累加$C = A \times B + C$

为什么重要

GEMM 是神经网络的核心计算单元:

  • 全连接层:$Y = WX + b$本质是 GEMM
  • 卷积层:可通过 im2col 转换为 GEMM
  • 注意力机制:$QK^T$和$Softmax \times V$均为矩阵乘法

硬件优化

硬件GEMM 加速单元
NVIDIA GPUTensor Core
AMD GPUMatrix Core
华为昇腾Cube Core
Intel CPUAMX 指令集

优化 GEMM 性能是提升 AI 模型训练推理效率的关键路径。

Comments