IS 和 FID 是图像生成最经典的两个评估指标。IS 只看生成图的清晰度与多样性;FID 同时对比生成与真实分布,是当前 SOTA 主指标。
一句话区别
- IS(Inception Score):只看生成图,关心”清晰 + 多样”
- FID(Fréchet Inception Distance):对比生成分布与真实分布的整体相似度
核心原理
IS — 用 Inception-v3 对生成图分类,从两方面打分:
- 单张图分类置信度高 → 清晰
- 类别分布均匀 → 多样
FID — 提取 Inception-v3 特征并假设服从高斯分布,计算真实分布与生成分布的弗雷歇距离:
关键差异
| 维度 | IS | FID |
|---|---|---|
| 是否对比真实图像 | 否 | 是 |
| 评价方向 | 清晰度 + 多样性 | 真实度 + 整体分布相似度 |
| 数值方向 | 越大越好 | 越小越好 |
| 对模式崩溃敏感 | 敏感 | 更敏感 |
| 对颜色/风格偏移敏感 | 否 | 非常敏感 |
| 易被”糊弄” | 容易(清晰假图也高分) | 难(须整体接近真实) |
| 主流地位 | 早期主流,现为辅助 | 当前 SOTA 标配主指标 |
典型问题场景
| 现象 | IS 反应 | FID 反应 |
|---|---|---|
| 生成图清晰但全是同一张脸 | 仍很高 | 大幅升高 |
| 生成图模糊但分布接近真实 | 很低 | 可能尚可 |
| 颜色偏绿、风格怪异 | 可能尚可 | 大幅升高 |
| 模式崩溃 | 骤降 | 骤升 |
为什么主流改用 FID
- IS 不参考真实图,无法衡量真实度
- IS 容易被优化出”虚假高分”
- FID 与人类主观评价相关性更高
- FID 同时反映质量、多样性、分布真实性
实践建议
- 主指标:FID
- 辅助指标:IS、CLIP Score、LPIPS
- 论文中只看 IS 易被审稿人质疑;只看 FID 更专业
- 如需更稳定指标,使用 Clean-FID(修复了 PIL 重采样等导致的偏差)