使用Inception分数评估GAN生成的图像的局限性

时间:2019-03-03 07:57:49

标签: pytorch face-recognition generative-adversarial-network image-generation

我正在寻找定量指标(例如初始得分)来评估GAN模型生成的图像,但是我无法确定是否适合我的情况。

我知道初始分数能够评估(1)图像质量和(2)多样性。例如,如果我们尝试使用GAN模型(例如MUNIT)对家猫进行多模式I2I转换为狗,则初始得分会很高,因为所生成的狗图像逼真且多样化(不同的狗品种),且结果为1000-最后一层中的维特征向量将具有低熵,因为它将以相应或相似的类为中心。如果GAN模型获得多样化的多模态结果,则每张生成的狗图像将对应于inceptionv3的1000次分类结果中的不同类别。

但是,在某些情况下,初始分数可能不合适。例如,期望使用GAN生成人脸以生成具有不同身份或人脸属性的逼真的人脸图像。人脸不是Imagenet分类中的1000个类别之一。因此,使用这些生成的面部图像来估计其相应的初始分数似乎是不合理的。

除了初始分数外,有人可以推荐其他指标来评估GAN生成的图像的图像质量吗?

谢谢

关于入学分数的注释 参考:https://arxiv.org/pdf/1801.01973.pdf

MUNIT: https://arxiv.org/pdf/1804.04732.pdf

0 个答案:

没有答案