神经网络如何克服偏差/方差困境?

时间:2016-04-16 21:38:26

标签: machine-learning neural-network

深度学习被视为rebranding of Neural Networks

论文"Neural Networks and the Bias/Variance Dilemma" by Stuart Geman中提出的问题是否曾在今天使用的架构中得到解决?

2 个答案:

答案 0 :(得分:7)

我们学到了很多关于NN的知识,特别是:

  • 我们现在学习更好的表示,因为无监督/自动回归学习取得了进展,例如受限制的boltzman机器,自动编码器,去噪自动编码器,变量自动编码器,这有助于稳定过程,从合理的表示中学习< / LI>
  • 我们有更好的先验 - 在严格的概率意义上并不是最好的,但我们知道,例如在图像处理中,一个好的架构是卷积的,因此我们有一个较小的(在参数方面),但更适合问题 - 模型。因此,我们不太容易过度拟合。
  • 我们有更好的优化技术和激活功能 - 这有助于我们进行不合适(我们可以学习更大的网络),特别是 - 我们可以学习更深层次的网络。为什么深度往往更好呢?因为再次 - 这是另一个先验,假设表示应该是分层的,并且它似乎在许多现代问题之前是有效的(甚至不是所有现代问题)。
  • 辍学,以及其他技术带来的更好的正则化方法(比以前已知和使用的简单权重先验) - 这再次限制了过度拟合(方差)的问题。

还有很多事情发生了变化,但总的来说 - 我们只是能够找到更好的架构,更好的假设,因此我们现在在更狭隘的假设类别中进行搜索。因此 - 我们过度减少(方差),低调(偏见) - 但仍有许多工作要做!

接下来就是@david指出的数据量。我们现在拥有庞大的数据集,我们经常可以访问我们可以在合理的时间内处理的更多数据,显然更多的数据意味着更少的方差 - 即使高度过度拟合的模型也开始表现良好。

最后但并非最不重要的 - 硬件。每个深度学习专家都会告诉你 - 我们的计算机变得更强大了。我们仍然使用相同的算法,相同的架构(有许多小调整,但核心是相同的),但我们的硬件指数级更快,而且这变化很多

答案 1 :(得分:1)

@lejlot给出了一个很好的概述。我想指出整个过程的两个具体部分。

首先,神经网络是通用的近似值。这意味着,他们原则上的偏见可以任意小。相当严重的问题是过度拟合 - 差异太大。

现在,机器学习中处理过大方差的一种常见而成功的方法是通过“平均化”来避免许多不同的预测 - 这应该尽可能不相关。例如,这在随机森林中起作用,并且通过这种方式,我倾向于理解当前的神经网络(特别是maxout + dropout东西)。当然,这是一个狭隘的观点 - 还有整个代表性学习的东西,没有解释的属性等等 - 但是我发现它适合你关于偏差/方差权衡的问题。

第二点:没有比拥有大量数据更好的防止过度拟合的方法。目前我们正在收集大量数据。