深度学习中不平衡数据的任何不良影响?

时间:2016-06-27 21:37:22

标签: image-recognition

我发现在像imagenet,cifar-100这样的流行数据集中,每个类别的图像数量是相同的。 我想知道如果分类培训图像不平衡,是否会产生任何不良影响。 (例如,豹子为100只,大象为5000只)

1 个答案:

答案 0 :(得分:1)

是的,在这种情况下,您可能会遇到一些问题:隐藏的图层会更多地针对大象的特征进行训练。如果你增加隐藏的过滤器或神经元的数量来容纳豹子,你就有可能在这个过程中过度拟合大象。

主要问题是你是否有足够的豹图像来区分它们与其他输入。如果是这样,并且如果您加载训练数据使得豹子在训练的前200-300张照片中具有良好的平衡,那么后者对大象的训练将对“发现”的特征产生较小的影响。但是,这会影响训练速度而不是准确度。