我已经训练了一个单层,100个带有二进制输入单元的隐藏单元RBM和隐藏层上的ReLU激活。使用50k MNIST图像的训练集,在动态和L1权重惩罚的500个完整批次训练时期后,我在10k图像测试集上得到~5%RMSE。
观察下面的可视化,很明显隐藏单位之间存在很大差异。有些似乎已经融合到一个非常明确的响应模式中,而另一些则与噪声无法区分。
我的问题是:您如何解释这种明显的变化,以及哪种技术可能有助于实现更均衡的结果?这样的情况是否需要更多的正规化,更慢的学习,更长的学习或其他什么?
Raw weights of the 100 hidden units, reshaped into the input image size.