IS 和 FID 是图像生成最经典的两个评估指标。IS 只看生成图的清晰度与多样性;FID 同时对比生成与真实分布,是当前 SOTA 主指标。

一句话区别

  • IS(Inception Score):只看生成图,关心”清晰 + 多样”
  • FID(Fréchet Inception Distance):对比生成分布与真实分布的整体相似度

核心原理

IS — 用 Inception-v3 对生成图分类,从两方面打分:

  • 单张图分类置信度高 → 清晰
  • 类别分布均匀 → 多样

FID — 提取 Inception-v3 特征并假设服从高斯分布,计算真实分布与生成分布的弗雷歇距离:

关键差异

维度ISFID
是否对比真实图像
评价方向清晰度 + 多样性真实度 + 整体分布相似度
数值方向越大越好越小越好
对模式崩溃敏感敏感更敏感
对颜色/风格偏移敏感非常敏感
易被”糊弄”容易(清晰假图也高分)难(须整体接近真实)
主流地位早期主流,现为辅助当前 SOTA 标配主指标

典型问题场景

现象IS 反应FID 反应
生成图清晰但全是同一张脸仍很高大幅升高
生成图模糊但分布接近真实很低可能尚可
颜色偏绿、风格怪异可能尚可大幅升高
模式崩溃骤降骤升

为什么主流改用 FID

  • IS 不参考真实图,无法衡量真实度
  • IS 容易被优化出”虚假高分”
  • FID 与人类主观评价相关性更高
  • FID 同时反映质量、多样性、分布真实性

实践建议

  • 主指标:FID
  • 辅助指标:IS、CLIP Score、LPIPS
  • 论文中只看 IS 易被审稿人质疑;只看 FID 更专业
  • 如需更稳定指标,使用 Clean-FID(修复了 PIL 重采样等导致的偏差)