标签: machine-learning neural-network lstm recurrent-neural-network transfer
我想将隐藏状态从多个LSTM网络转移到新网络中。在将隐藏状态输入新网络之前,将隐藏状态缩放或标准化是否有意义?
答案 0 :(得分:1)
以这种方式破坏网络是相当可能的。看看下面的LSTM方程式:
根据输入序列x,缩放Wi或Wc可以使相应的偏差成为主导,这基本上会形成一个全新的网络。相同的输入序列x将导致不同的长期和短期状态,并且没有理由认为它们更好。缩放权重和偏差也很奇怪,因为它会改变整个线性图层的比例。
x
Wi
Wc
如果您对体重正规化感兴趣,最好将其纳入原始网络,而不是修补经过训练的模型。