为什么imagenet数据集标签中存在差异?

时间:2017-06-27 07:54:31

标签: machine-learning computer-vision deep-learning classification imagenet

用于培训的标签和用于验证的标签是否相同?我以为它们应该是一样的;但是,在线提供的标签似乎存在差异。当我从官方网站下载了用于验证数据的imagenet 2012标签时,我得到的标签以kit_fox作为第一个标签,与我从官方网站下载的2012年数据集验证图像相匹配。这是标签的示例:https://gist.github.com/aaronpolhamus/964a4411c0906315deb9f4a3723aac57

但是,对于几乎所有预训练模型,包括Google培训的模型,他们用于培训的imagenet标签实际上都以tench, tinca tinca开头。见这里:https://gist.github.com/yrevar/942d3a0ac09ec9e5eb3a

为什么会出现这么大的差异? ' tinca tinca'有哪种标签来自?

如果我们使用与实际验证图像相对应的第一个标签映射,我们将面临另一个问题:2个类(" Crane"" maillot")实际上是重复的,即它们具有相同的名称,但参考不同类型的起重机 - 机械起重机和动物起重机 - 导致2个类中的100个图像而不是假定的50个。如果我们不使用第一个映射,那么可靠的来源是对应于第二个标签映射的验证图像?

1 个答案:

答案 0 :(得分:0)

我的微调中遇到了同样的问题。您解决了问题,将类tench, tinca tinca的名称更改为synset number。您可以找到here映射