训练模型时,多次训练小数据与一次训练大数据之间有区别吗?

时间:2019-01-25 05:38:09

标签: python tensorflow lstm word2vec

我已经有一个训练了13万个句子的模型。

我想用双向lstm对句子进行分类。 我们计划使用此服务。 但是,必须在整个服务期间继续对模型进行训练。

所以我想 直到模型的精度提高 我将查看模型分类的句子,然后自己回答。

我会训练句子来回答。

逐个训练句子与将它们合并为一个文件来训练句子之间有区别吗?

每次我说一个句子 一对一培训 有关系吗?

1 个答案:

答案 0 :(得分:1)

是的,有区别。假设您有10,000个句子的数据集。

  • 如果您每次训练一个句子,那么将对每个句子进行优化(反向传播)。这会消耗更多的时间和内存,不是一个好的选择。如果您的数据集很大,则不可能。计算每个实例上的梯度比较麻烦,收敛速度也较慢。
  • 如果您要分批训练,则假设批次大小为1000,则您有10个批次。这些批次一起进入网络,因此在这些批次上计算了梯度。因此,梯度接收到足够的噪声以收敛于全局最小值而不是局部最小值。此外,它具有高效的内存和更快的收敛速度。

您可以从hereherehere中查看答案。

相关问题