纪元增加与训练数据增加

时间:2019-09-27 10:51:19

标签: tensorflow image-processing keras conv-neural-network

用于图像分析:

对于40000张图像,将历元从2增加到4更好吗?这花费了两倍的时间。

OR

将训练数据的大小从40000增加到80000更好,但仅使用2个时期。这也将花费两倍的时间。

由于增加时期数和训练数据都需要很多时间,所以我只能做一个。

应该选择什么?

谢谢。

2 个答案:

答案 0 :(得分:0)

除了注意事项(错误/令人困惑的样本,...)之外,始终首选增加数据。 这样做的原因是泛化:您可以向网络显示N次相同的图像,或N个不同的图像。在第一种情况下,它将过度适合训练数据集,而不能推广到新图像。

这也是存在数据增强技术的原因:如果您没有要训练的任何“新”数据,则可以尝试生成将转换应用于您已有的“新”样本。

当然,更多的数据意味着可以收集,清理,注释,存储和分发更大的数据集,这最终限制了实际数据集的大小。 但是,如果您有可用的数据进行培训,请使用它。

答案 1 :(得分:0)

拥有更多数据始终是一个好方法,但是拥有更多的时期将导致过度拟合,而更少的时期将导致拟合不足。您可以选择在Keras中具有 EarlyStopping (早期停止),一旦模型性能停止改善,它将在某个时期停止训练模型。

如果数据有限,您可以扩充数据,这将增加用于训练模型的不同图像的数量。

请参考openCV和scikit-image了解不同的图像转换技术,例如:

  • 仿射变换
  • 透视转换
相关问题