我有一个数据集,其中(500+)列之间存在高度相关性。从我的理解(并纠正我,如果我错了),你使用零均值和一个std dev进行规范化的原因之一是,对于具有给定学习率的优化器来说,更容易处理多个问题,而不是采用X的规模的学习率。
同样有理由说明为什么我应该白化'我的数据集。这似乎是图像处理中的常见步骤。如果列是独立的,它会以某种方式使优化器更容易吗?
据我所知,经常人们习惯于对矩阵进行去相关,以使权重变得更具统计意义,并使矩阵求逆更稳定。因为我们现在使用随机梯度下降(SGD)的变化来代替DL,因此矩阵反演部分至少似乎不存在。
答案 0 :(得分:3)
现在这不是真正重要的事情。阅读Andrej的note。通常我们不在深度学习架构中使用PCA。因为我们不需要减少功能,因为我们拥有可以提取分层功能的深层体系结构。归零中心数据总是好的。这意味着您需要规范化数据以减少批次中的差异。无论如何,通常在CNN中我们使用批量标准化层。这确实有助于网络在没有协变量转换的情况下收敛。此外,像adam.rmsprop这样的现代优化技术使数据预处理部分变得不那么重要了。