是否有充分了解何时使用辍学与简单获取更多数据的指导原则?我之前已经明白,如果有足够的数据,我们就不会想要使用辍学。然而,我最近有一个模型(4层LSTM处理音频输入),无论我提供多少数据,都会凭经验收敛到一定的损失 - 然后在我添加辍学时显着改善。
这种现象是否被很好地理解?那么,即使有更多(可能是无限的)数据可用,总是会使用dropout吗?
跟进:如果是这样的话,我在RL论文中没有多少提及辍学。我假设这是因为有无限的可生成数据。这里是否有其他细微差别可以考虑探讨的状态空间的分数,或者可用的训练数据的异质性等?
答案 0 :(得分:5)
辍学降低了列车的准确性,以换取测试精度。但是,您在数据上的表现受到训练准确性的限制。在具有无限独立分布式数据的世界中,可以获得与训练集相等的问题的性能,因为实质上它是相同的数据。
然而在实践中,你将永远不会有这么好的训练集。即使您获得无限数据,它也不代表您的分布,绝对不会是独立的。
答案 1 :(得分:0)
没有确切的辍学处方 - 正如Hinton's group 2014 paper似乎证实的那样。然而他们在那里写道:
Dropout在渐变中引入了大量噪声 与标准随机梯度下降相比。因此,很多 渐变倾向于相互抵消。为了弥补这一点, 辍学网通常应该使用10-100倍的学习率 对标准神经网络来说是最佳的。
所以我的天真猜测是需要额外训练数据10-100的因素。另请注意,使用辍学率几乎可以使所需的培训制度数量增加两倍 - 这是需要考虑的另一个因素。