培训步骤的差异或完整的贯穿

时间:2016-07-08 19:22:44

标签: tensorflow

在tensorflow.org的初学者 - mnist教程中,他们用1000步,100个例子进行训练。哪个不仅仅是包含55,000分的训练集?在expert-mnist教程中,他们训练了20000步,50个例子。

我认为培训步骤已经完成,因此每个培训步骤都可以使打印输出产生的损失或/和准确度,而无需等到结束或处理。

但是,也可以简单地通过train_operation在1步中管理所有示例,然后查看结果,或者不可能?

1 个答案:

答案 0 :(得分:2)

每次迭代对整个数据集的训练称为批量梯度下降。小型飞机训练(例如每次100个样本)称为随机梯度下降。您可以在交叉验证的this question中阅读有关这两者的更多信息以及选择更大或更小批量的原因。

批量梯度下降通常是不可行的,因为它需要太多的RAM。即使您拥有计算资源,每次迭代也将花费更长的时间,并且权衡往往是不值得的。

也就是说,批量大小是一个超参数,您可以使用它来找到效果很好的值。