我正在撰写一篇文章,重点关注一个简单的问题 - 在存在标准正常或均匀噪声的情况下对大型数据集进行线性回归。我选择了TensorFlow的Estimator API作为建模框架。
我发现,当训练步骤的数量足够大时,超参数调整对于这种机器学习问题实际上并不重要。通过超参数我指的是训练数据流中的批量大小或时期数。
是否有任何纸张/文章有正式的证据?
答案 0 :(得分:0)
我认为没有专门针对这个问题的论文,因为它或多或少是一个基本的事实。 this book的介绍性章节讨论了机器学习的概率解释,尤其是损失函数优化。
简而言之,我们的想法是这样的:小批量优化wrt (x1,..., xn)
等同于x1
,...,xn
输入的连续优化步骤,因为渐变是线性算子。这意味着小批量更新等于其各个更新的总和。重要说明:我假设NN不应用批处理规范或任何其他为推理模型添加显式变化的层(在这种情况下,数学有点毛茸茸)。
因此,批量大小可以看作是一种纯粹的计算思想,可以通过矢量化和并行计算加速优化。假设一个人可以承受任意长时间的培训并且数据被适当地改组,批量大小可以设置为任何值。但是对于所有超参数都不会自动生效,例如,非常高的学习速率很容易迫使优化发散,因此不要错误地认为超级散射器调整通常并不重要。