张芷铭的个人博客

MFU(Model FLOPs Utilization)是模型浮点运算利用率,衡量AI芯片算力利用效率的核心指标。训练MFU > 50%、推理MFU > 70%为高效。

主流芯片LLM/VLM实测MFU

NVIDIA GPU

型号训练MFU(LLM,优化后)推理MFU(LLM/VLM,优化后)
A100 80GB55%-60%70%-85%
H100 80GB40%-55%80%-95%
L40S 48GB30%-45%60%-80%
RTX 409020%-35%40%-60%

华为昇腾NPU

型号训练MFU推理MFU
昇腾 910B45%-55%70%-95%
昇腾 910C50%-65%85%-98%
昇腾 310B-60%-85%

其他芯片

芯片训练MFU推理MFU
AMD MI250X45%-55%65%-80%
寒武纪思元 59040%-50%60%-75%
百度昆仑芯 335%-45%60%-80%

影响MFU的核心因素

硬件规格

因素影响
算力/带宽比H100算力提升6×、带宽仅增67%,易带宽瓶颈
显存容量/带宽显存不足触发OOM或频繁换页
互联带宽NVLink 4.0(900GB/s)> PCIe 4.0(64GB/s)
精度支持FP8原生支持可减半通信量、提升MFU 10%-20%

模型与任务

因素影响
模型大小7B模型MFU通常比70B高15%-30%
序列长度上下文512→2048,MFU下降20%-30%
任务类型训练MFU普遍低于推理20%-40%

软件优化

技术MFU提升
并行策略(ZeRO-3/FSDP)20%→60%+
算子优化(FlashAttention、TensorRT)15%-40%
量化(INT8/FP8)30%-50%
批处理(推理Batch 1→32)35%→80%+

行业通用经验值

训练场景

场景A100H100昇腾910B
单卡小模型(<7B)60%-70%50%-65%55%-65%
多卡大模型(70B+)50%-60%40%-55%50%-60%
未优化baseline20%-40%20%-40%20%-40%

推理场景

场景A100H100昇腾910B
高吞吐(Batch 32+)75%-85%85%-95%80%-95%
低延迟(Batch 1)40%-60%50%-70%35%-50%

快速提升MFU建议

  1. 训练优先:ZeRO-3/FSDP + TP+PP混合并行
  2. 推理优先:vLLM/TensorRT-LLM + FP8/INT8量化 + 大Batch
  3. 硬件匹配:大模型选高带宽+大显存;小模型选性价比芯片
  4. 持续调优:监控MFU,定位带宽/通信/显存瓶颈

Comments