- 张芷铭的个人博客

VLM离线推理中，MFU是衡量GPU效率的核心指标。本文澄清两个常见误区。

误区一：小参数VLM推理MFU应和大模型接近

结论：小参数VLM（如2B）推理MFU天然低于大模型，是正常现象。

核心原因：

结论：相同模型+相同图片尺寸，不同输入样本MFU必然波动。

核心原因：

因素	说明
文本序列长度动态	prompt/输出长度改变KV Cache大小，显存带宽压力不同
Attention计算不固定	文本token数变化改变Attention计算密度
推理优化动态开销	Padding对齐、算子融合、PagedAttention对不同序列效率差异大
调度与搬运开销	视觉/文本特征拼接、CUDA流调度等固定开销占比不同

稳定测试MFU：固定序列长度 提升小模型MFU：增大batch、算子融合、规整序列长度