- 张芷铭的个人博客

张芷铭的个人博客

📅 0001-01-01

MFU（Model FLOPs Utilization）是模型浮点运算利用率，衡量AI芯片算力利用效率的核心指标。训练MFU > 50%、推理MFU > 70%为高效。

主流芯片LLM/VLM实测MFU

NVIDIA GPU

型号	训练MFU（LLM，优化后）	推理MFU（LLM/VLM，优化后）
A100 80GB	55%-60%	70%-85%
H100 80GB	40%-55%	80%-95%
L40S 48GB	30%-45%	60%-80%
RTX 4090	20%-35%	40%-60%

华为昇腾NPU

型号	训练MFU	推理MFU
昇腾 910B	45%-55%	70%-95%
昇腾 910C	50%-65%	85%-98%
昇腾 310B	-	60%-85%

其他芯片

芯片	训练MFU	推理MFU
AMD MI250X	45%-55%	65%-80%
寒武纪思元 590	40%-50%	60%-75%
百度昆仑芯 3	35%-45%	60%-80%

影响MFU的核心因素

硬件规格

因素	影响
算力/带宽比	H100算力提升6×、带宽仅增67%，易带宽瓶颈
显存容量/带宽	显存不足触发OOM或频繁换页
互联带宽	NVLink 4.0（900GB/s）> PCIe 4.0（64GB/s）
精度支持	FP8原生支持可减半通信量、提升MFU 10%-20%

模型与任务

因素	影响
模型大小	7B模型MFU通常比70B高15%-30%
序列长度	上下文512→2048，MFU下降20%-30%
任务类型	训练MFU普遍低于推理20%-40%

软件优化

技术	MFU提升
并行策略（ZeRO-3/FSDP）	20%→60%+
算子优化（FlashAttention、TensorRT）	15%-40%
量化（INT8/FP8）	30%-50%
批处理（推理Batch 1→32）	35%→80%+

行业通用经验值

训练场景

场景	A100	H100	昇腾910B
单卡小模型（<7B）	60%-70%	50%-65%	55%-65%
多卡大模型（70B+）	50%-60%	40%-55%	50%-60%
未优化baseline	20%-40%	20%-40%	20%-40%

推理场景

场景	A100	H100	昇腾910B
高吞吐（Batch 32+）	75%-85%	85%-95%	80%-95%
低延迟（Batch 1）	40%-60%	50%-70%	35%-50%

快速提升MFU建议

训练优先：ZeRO-3/FSDP + TP+PP混合并行
推理优先：vLLM/TensorRT-LLM + FP8/INT8量化 + 大Batch
硬件匹配：大模型选高带宽+大显存；小模型选性价比芯片
持续调优：监控MFU，定位带宽/通信/显存瓶颈

Comments