MFU(Model FLOPs Utilization)是模型浮点运算利用率,衡量AI芯片算力利用效率的核心指标。训练MFU > 50%、推理MFU > 70%为高效。
主流芯片LLM/VLM实测MFU
NVIDIA GPU
| 型号 | 训练MFU(LLM,优化后) | 推理MFU(LLM/VLM,优化后) |
|---|
| A100 80GB | 55%-60% | 70%-85% |
| H100 80GB | 40%-55% | 80%-95% |
| L40S 48GB | 30%-45% | 60%-80% |
| RTX 4090 | 20%-35% | 40%-60% |
华为昇腾NPU
| 型号 | 训练MFU | 推理MFU |
|---|
| 昇腾 910B | 45%-55% | 70%-95% |
| 昇腾 910C | 50%-65% | 85%-98% |
| 昇腾 310B | - | 60%-85% |
其他芯片
| 芯片 | 训练MFU | 推理MFU |
|---|
| AMD MI250X | 45%-55% | 65%-80% |
| 寒武纪思元 590 | 40%-50% | 60%-75% |
| 百度昆仑芯 3 | 35%-45% | 60%-80% |
影响MFU的核心因素
硬件规格
| 因素 | 影响 |
|---|
| 算力/带宽比 | H100算力提升6×、带宽仅增67%,易带宽瓶颈 |
| 显存容量/带宽 | 显存不足触发OOM或频繁换页 |
| 互联带宽 | NVLink 4.0(900GB/s)> PCIe 4.0(64GB/s) |
| 精度支持 | FP8原生支持可减半通信量、提升MFU 10%-20% |
模型与任务
| 因素 | 影响 |
|---|
| 模型大小 | 7B模型MFU通常比70B高15%-30% |
| 序列长度 | 上下文512→2048,MFU下降20%-30% |
| 任务类型 | 训练MFU普遍低于推理20%-40% |
软件优化
| 技术 | MFU提升 |
|---|
| 并行策略(ZeRO-3/FSDP) | 20%→60%+ |
| 算子优化(FlashAttention、TensorRT) | 15%-40% |
| 量化(INT8/FP8) | 30%-50% |
| 批处理(推理Batch 1→32) | 35%→80%+ |
行业通用经验值
训练场景
| 场景 | A100 | H100 | 昇腾910B |
|---|
| 单卡小模型(<7B) | 60%-70% | 50%-65% | 55%-65% |
| 多卡大模型(70B+) | 50%-60% | 40%-55% | 50%-60% |
| 未优化baseline | 20%-40% | 20%-40% | 20%-40% |
推理场景
| 场景 | A100 | H100 | 昇腾910B |
|---|
| 高吞吐(Batch 32+) | 75%-85% | 85%-95% | 80%-95% |
| 低延迟(Batch 1) | 40%-60% | 50%-70% | 35%-50% |
快速提升MFU建议
- 训练优先:ZeRO-3/FSDP + TP+PP混合并行
- 推理优先:vLLM/TensorRT-LLM + FP8/INT8量化 + 大Batch
- 硬件匹配:大模型选高带宽+大显存;小模型选性价比芯片
- 持续调优:监控MFU,定位带宽/通信/显存瓶颈
Comments