我有一个训练语音数据的模型。一开始我总是从纪元0开始训练,因为我有一个小数据集。随着我的数据集越来越大,我想知道,在现有模型上训练附加数据是否是一种有效的做法?
例如,我有一个训练有100,000个样本和30个时期的模型。然后我添加20,000个样本,并开始在30个时期进行训练,并在120,000个样本的整个数据集上持续另外10个时期。这会对结果产生多大影响(我的指标是准确度)?
答案 0 :(得分:-1)
我担心你的额外20,000个样品会过度拟合。我会这样从你的初始数据集中随机抽样20.000,然后,添加新的20.000并训练30个纪元。在每个时期使用来自初始数据集的不同样本。这应该给你类似的结果,然后通过训练完整的数据集。