平衡两个数据集进行训练

时间:2019-10-31 07:32:35

标签: python dataset

目前,我正在研究“年龄分类”问题。

假设我有2个数据集,例如A和B。数据集A包含大约160k图像,而集合B仅包含5k图像。

  • 火车组A是从Internet下载的。每个图像都是完美的 标有特定年龄范围的标签。例如,总共7个年龄段。
  • 从真实场景中手动标记集合B(视频 相机)。很多嘈杂的图像和小尺寸的图像。 (45x45)
  • 测试集C与训练集B(真实情况)(是私人集)相似

我采用了转移学习技术,但是我在B机上表现不佳。我想在B机上表现出色,因此我可以在C机上获得可比的性能。

培训过程包括2个步骤:

  1. 对集合A进行10个时期的微调(因为过拟合会在10个时期之后发生)。我使用了VGG16体系结构(权重是从ImageNet初始化的),并修改了1000-> 7类中的最后一个完全连接的层。
  2. 最后评估B集

结果:几乎是20-29岁和30-39岁的预测。

我猜想有不平衡的数据集需要微调。

我真正的问题是:

  1. 如何创建可以利用集合B的好处的平衡数据集?
  2. 我训练的过程是否正确?

请注意:B组中的图像质量较A组低。

如何提高模型的性能?谢谢你的建议。 This is the comparison 2 set A and B

0 个答案:

没有答案