应用错误收集

是的，它可能仍然存在。辍学在某种意义上是正规化，但比L1规范更为微妙。它可以防止特征检测器的过度共同适应，如原始论文中所述。

您可能不希望网络学习仅依赖于一个功能或仅仅是一小部分功能，即使这是您的训练集中的最佳功能，因为在新数据中可能不是这种情况。直观地，即使在训练集中没有类似图像的示例图像（如果面部高级特征将被丢弃一些部分），如果面部被遮挡，具有训练以识别图像中的人的辍学的网络将可能仍然识别它们。的时间）;没有辍学的网络可能不会（因为面部特征可能是用于检测人的最佳单一特征之一）。您可以将辍学视为一定程度的强迫概念概括。

根据经验，当使用丢失时，使用丢失产生的特征检测器更加结构化（例如，对于图像：对于前几个层更接近Gabor滤波器）;没有辍学，他们更接近随机（可能是因为该网络近似于Gabor滤波器，它使用随机滤波器的特定线性组合向前收敛，如果它可以依赖于该组合的元素没有被丢弃那么就没有分离的梯度过滤器）。这也可能是一件好事，因为它会强制独立的功能在早期实现为独立功能，这可能会导致较晚的串扰。

无限大型训练集的正规化？

1 个答案: