tensorflow - 纪元增加与训练数据增加

时间：2019-09-27 10:51:19

标签： tensorflow image-processing keras conv-neural-network

用于图像分析：

对于40000张图像，将历元从2增加到4更好吗？这花费了两倍的时间。

将训练数据的大小从40000增加到80000更好，但仅使用2个时期。这也将花费两倍的时间。

由于增加时期数和训练数据都需要很多时间，所以我只能做一个。

应该选择什么？

谢谢。

答案 0 :(得分：0)

除了注意事项（错误/令人困惑的样本，...）之外，始终首选增加数据。这样做的原因是泛化：您可以向网络显示N次相同的图像，或N个不同的图像。在第一种情况下，它将过度适合训练数据集，而不能推广到新图像。

这也是存在数据增强技术的原因：如果您没有要训练的任何“新”数据，则可以尝试生成将转换应用于您已有的“新”样本。

当然，更多的数据意味着可以收集，清理，注释，存储和分发更大的数据集，这最终限制了实际数据集的大小。但是，如果您有可用的数据进行培训，请使用它。

答案 1 :(得分：0)

拥有更多数据始终是一个好方法，但是拥有更多的时期将导致过度拟合，而更少的时期将导致拟合不足。您可以选择在Keras中具有 EarlyStopping （早期停止），一旦模型性能停止改善，它将在某个时期停止训练模型。

如果数据有限，您可以扩充数据，这将增加用于训练模型的不同图像的数量。

请参考openCV和scikit-image了解不同的图像转换技术，例如：