缩放LSTM权重是否有意义?

时间:2018-01-03 13:28:15

标签: machine-learning neural-network lstm recurrent-neural-network transfer

我想将隐藏状态从多个LSTM网络转移到新网络中。在将隐藏状态输入新网络之前,将隐藏状态缩放或标准化是否有意义?

1 个答案:

答案 0 :(得分:1)

以这种方式破坏网络是相当可能的。看看下面的LSTM方程式:

LSTM

根据输入序列x,缩放WiWc可以使相应的偏差成为主导,这基本上会形成一个全新的网络。相同的输入序列x将导致不同的长期和短期状态,并且没有理由认为它们更好。缩放权重和偏差也很奇怪,因为它会改变整个线性图层的比例。

如果您对体重正规化感兴趣,最好将其纳入原始网络,而不是修补经过训练的模型。