使用数据集训练模型

时间:2019-05-09 04:18:13

标签: machine-learning deep-learning computer-vision

我有一个模型,需要对我每天获取的真实世界数据进行训练。每3或4天,我可以准备约500张图像进行训练。因此,我必须在获得500张图像后立即开始训练并检查模型。同时,我将再获取500张图像,依此类推。是否可以使用前500个数据集进行训练并保存模型权重,然后使用保存的权重继续使用最新的500个数据集进行训练?

2 个答案:

答案 0 :(得分:1)

这基本上就像转学。您采用预先训练的模型,并根据新数据对其进行微调。您将必须保存模型及其权重,然后像往常一样将它们加载回去并训练新数据。这是一种常见的做法。

答案 1 :(得分:1)

您有两个选择-有效地进行迁移学习(如上所述),或者,如果您真的相信旧数据+新数据=可能要训练的最佳数据集,请考虑从头开始对整个数据集进行再训练(旧数据+新数据)。后者提供了所有数据,无论是新数据还是旧数据,都同样公平,这在迁移学习中不一定是正确的。尽管我不得不质疑您是否需要每3或4天这样做一次-如果您的问题设计得当且模型设计良好,但在某些时候,您应该有足够的数据以使在该数据上训练的模型能够很好地泛化,从而可以连续给出它拥有更多数据将不再显着改善性能。另外,如果使用2000幅图像对模型进行训练比使用500幅图像能显着提高性能,为什么不将其发布到现实世界中再等几周直到获得2000幅图像呢?显然,这取决于您的任务和行业领域,因此您可能有一个我不知道的充分理由,但是值得考虑。