当堆叠玻尔兹曼机器以生成预训练深度神经网络时,重建需要多准确?如果它们太精确,过度拟合会成为一个问题吗?或者在进行判别性微调时是否只有一个红旗的精度过高?
答案 0 :(得分:1)
关注的是马尔可夫链中的燃烧不足以抑制训练集中远离初始值的高能区。这通常使用CD(1)或任何低阶对比背散。也就是说,这些方法通常会使权重远离本地最优,而非预先训练好的网络会被卡住。
RBM也通过模拟退火进行训练,因此更有可能探索更多的参数空间。
我还建议你阅读论文“理解深度学习需要重新思考张等人的概括”。它基本上显示了这些网络如何实际上完全记住可能的分布,并且仍然可以概括。