应用错误收集

我已经训练了一个单层，100个带有二进制输入单元的隐藏单元RBM和隐藏层上的ReLU激活。使用50k MNIST图像的训练集，在动态和L1权重惩罚的500个完整批次训练时期后，我在10k图像测试集上得到~5％RMSE。

观察下面的可视化，很明显隐藏单位之间存在很大差异。有些似乎已经融合到一个非常明确的响应模式中，而另一些则与噪声无法区分。

我的问题是：您如何解释这种明显的变化，以及哪种技术可能有助于实现更均衡的结果？这样的情况是否需要更多的正规化，更慢的学习，更长的学习或其他什么？