图像分类器的训练数据中每个类的大小是否必须相等?

时间:2017-08-01 03:25:12

标签: machine-learning computer-vision caffe nvidia-digits

我目前正在使用Nvidia DIGITS训练图像分类器。我正在下载1,000,000张图片作为ILSVRC12数据集的一部分。您可能知道,此数据集包含1,000个类,每个类有1,000个图像。问题是很多图像是从死Flickr URL下载的,因此填充了我的数据集的大部分(约5-10%),下面显示了通用的“不可用”图像。我计划浏览并删除此“通用”图像的每个副本,从而使我的数据集只包含与每个类相关的图像。

此操作会使类的大小不均匀。它们将不再包含1,000张图像。它们每个将包含900-1,000张图像。 每个类的大小是否必须相等?换句话说,我可以删除这些通用图像而不影响分类器的准确性吗?提前感谢您的反馈。
file not available image

1 个答案:

答案 0 :(得分:0)

每个班级的训练数据数量不必完全相等。这种或那种方式的10%差异不会显着影响培训过程 如果您仍然担心标签不平衡,可以考虑使用"InfogainLoss"图层来弥补缺失的示例。

PS, 您可以利用所有无效的flickr照片实际上相同这一事实,并根据其md5sum自动删除它们。
有关如何在下载imagenet照片时过滤掉这些图像,请参阅this answer