应用错误收集

时间：2017-02-04 19:23:08

标签： tensorflow deep-learning lstm reinforcement-learning

是否有充分了解何时使用辍学与简单获取更多数据的指导原则？我之前已经明白，如果有足够的数据，我们就不会想要使用辍学。然而，我最近有一个模型（4层LSTM处理音频输入），无论我提供多少数据，都会凭经验收敛到一定的损失 - 然后在我添加辍学时显着改善。

这种现象是否被很好地理解？那么，即使有更多（可能是无限的）数据可用，总是会使用dropout吗？

跟进：如果是这样的话，我在RL论文中没有多少提及辍学。我假设这是因为有无限的可生成数据。这里是否有其他细微差别可以考虑探讨的状态空间的分数，或者可用的训练数据的异质性等？

答案 0 :(得分：5)

辍学降低了列车的准确性，以换取测试精度。但是，您在数据上的表现受到训练准确性的限制。在具有无限独立分布式数据的世界中，可以获得与训练集相等的问题的性能，因为实质上它是相同的数据。

然而在实践中，你将永远不会有这么好的训练集。即使您获得无限数据，它也不代表您的分布，绝对不会是独立的。

答案 1 :(得分：0)

没有确切的辍学处方 - 正如Hinton's group 2014 paper似乎证实的那样。然而他们在那里写道：

Dropout在渐变中引入了大量噪声与标准随机梯度下降相比。因此，很多渐变倾向于相互抵消。为了弥补这一点，辍学网通常应该使用10-100倍的学习率对标准神经网络来说是最佳的。

所以我的天真猜测是需要额外训练数据10-100的因素。另请注意，使用辍学率几乎可以使所需的培训制度数量增加两倍 - 这是需要考虑的另一个因素。