假设我有一个数据集,并且由于Kaggle Notebook Environments的限制,我决定将一个大型数据集拆分为多个“块”。 A,B和C。此外,我想训练模型10个时间段。如果我按以下方式训练模型,会有所不同:
A ---> 10个时代
B ---> 10个时代
C ---> 10个时代
与这种方法相比:
A ---> B ---> C [Epoch 1] ---> A ---> B ---> C [Epoch 2] --->…---> A --- > B ---> C [第10集]
此外,如果我认为有区别但不确定,那么一种方法是否比另一种更好?
答案 0 :(得分:1)
对于机器学习,基本上,您必须将所有训练数据完全放在一起,以使您的模型不会错过数据集包含的任何模式。我想说的是,在训练模型之前,有一个很大的步骤是 Shuffle 。想象您一直被要求做纯数学,突然您的老师把您带到一个地理问题的前面,并要求您解决它,您将不知道该怎么做,机器是一样的!因此,请确保使用所有数据来训练您的模型,并且如果您的A ---> B ---> C [Epoch 1]是经过改组的数据,那就太好了,或者您必须对其进行改组。