我目前正在处理大约200万个对象的数据集。在我训练它们之前,我必须从磁盘加载它们并执行一些预处理(这会使数据集更大,因此保存后处理数据效率很低)。
现在我只是小批量加载和训练,但是如果我想在完整数据集上训练多个时期,我将不得不多次加载上一个时期的所有数据,最终需要花费很多时间时间。另一种方法是在转移到下一批次之前,对较小批次的数据进行多个时期的培训。第二种方法会导致任何问题(例如过度拟合)吗?还有其他更好的方法吗?如果有任何使用它的内置方法,我在Python 3中使用tflearn。
tl; dr:在训练所有数据的单个纪元之前,是否可以在数据子集上训练多个纪元