图像生成指标：FID 和 IS

IS 和 FID 是图像生成最经典的两个评估指标。IS 只看生成图的清晰度与多样性；FID 同时对比生成与真实分布，是当前 SOTA 主指标。

一句话区别

IS（Inception Score）：只看生成图，关心”清晰 + 多样”
FID（Fréchet Inception Distance）：对比生成分布与真实分布的整体相似度

核心原理

IS — 用 Inception-v3 对生成图分类，从两方面打分：

单张图分类置信度高 → 清晰
类别分布均匀 → 多样

IS = exp (E_{x} KL (p (y ∣ x) ∥ E_{x} p (y ∣ x)))

FID — 提取 Inception-v3 特征并假设服从高斯分布，计算真实分布与生成分布的弗雷歇距离：

FID = ∥ μ_{r} - μ_{g} ∥^{2} + Tr (Σ_{r} + Σ_{g} - 2 Σ_{r} Σ_{g})

关键差异

维度	IS	FID
是否对比真实图像	否	是
评价方向	清晰度 + 多样性	真实度 + 整体分布相似度
数值方向	越大越好	越小越好
对模式崩溃敏感	敏感	更敏感
对颜色/风格偏移敏感	否	非常敏感
易被”糊弄”	容易（清晰假图也高分）	难（须整体接近真实）
主流地位	早期主流，现为辅助	当前 SOTA 标配主指标

典型问题场景

现象	IS 反应	FID 反应
生成图清晰但全是同一张脸	仍很高	大幅升高
生成图模糊但分布接近真实	很低	可能尚可
颜色偏绿、风格怪异	可能尚可	大幅升高
模式崩溃	骤降	骤升

为什么主流改用 FID

IS 不参考真实图，无法衡量真实度
IS 容易被优化出”虚假高分”
FID 与人类主观评价相关性更高
FID 同时反映质量、多样性、分布真实性

实践建议

主指标：FID
辅助指标：IS、CLIP Score、LPIPS
论文中只看 IS 易被审稿人质疑；只看 FID 更专业
如需更稳定指标，使用 Clean-FID（修复了 PIL 重采样等导致的偏差）