张芷铭的个人博客

VLM离线推理中,MFU是衡量GPU效率的核心指标。本文澄清两个常见误区。

误区一:小参数VLM推理MFU应和大模型接近

结论:小参数VLM(如2B)推理MFU天然低于大模型,是正常现象。

核心原因

因素大模型小参数VLM
算力特性计算密集型,矩阵大,GPU持续计算访存密集型,矩阵小,GPU等待数据
VLM结构两端都能喂满Tensor Core视觉编码器+小LLM双重拉低利用率
硬件适配现代GPU专为大矩阵优化小模型难以填满计算流水线

误区二:同模型同图片尺寸MFU应一致

结论:相同模型+相同图片尺寸,不同输入样本MFU必然波动。

核心原因

因素说明
文本序列长度动态prompt/输出长度改变KV Cache大小,显存带宽压力不同
Attention计算不固定文本token数变化改变Attention计算密度
推理优化动态开销Padding对齐、算子融合、PagedAttention对不同序列效率差异大
调度与搬运开销视觉/文本特征拼接、CUDA流调度等固定开销占比不同

总结

  1. 小参数VLM MFU低是算力密度不足+硬件特性的客观结果
  2. 输入不同引发MFU波动是文本动态序列+现代推理优化的必然产物

稳定测试MFU:固定序列长度 提升小模型MFU:增大batch、算子融合、规整序列长度

Comments