VLM离线推理中,MFU是衡量GPU效率的核心指标。本文澄清两个常见误区。
误区一:小参数VLM推理MFU应和大模型接近
结论:小参数VLM(如2B)推理MFU天然低于大模型,是正常现象。
核心原因:
| 因素 | 大模型 | 小参数VLM |
|---|---|---|
| 算力特性 | 计算密集型,矩阵大,GPU持续计算 | 访存密集型,矩阵小,GPU等待数据 |
| VLM结构 | 两端都能喂满Tensor Core | 视觉编码器+小LLM双重拉低利用率 |
| 硬件适配 | 现代GPU专为大矩阵优化 | 小模型难以填满计算流水线 |
误区二:同模型同图片尺寸MFU应一致
结论:相同模型+相同图片尺寸,不同输入样本MFU必然波动。
核心原因:
| 因素 | 说明 |
|---|---|
| 文本序列长度动态 | prompt/输出长度改变KV Cache大小,显存带宽压力不同 |
| Attention计算不固定 | 文本token数变化改变Attention计算密度 |
| 推理优化动态开销 | Padding对齐、算子融合、PagedAttention对不同序列效率差异大 |
| 调度与搬运开销 | 视觉/文本特征拼接、CUDA流调度等固定开销占比不同 |
总结
- 小参数VLM MFU低是算力密度不足+硬件特性的客观结果
- 输入不同引发MFU波动是文本动态序列+现代推理优化的必然产物
稳定测试MFU:固定序列长度 提升小模型MFU:增大batch、算子融合、规整序列长度
张芷铭的个人博客
Comments