最近的随机递归神经网络的消失梯度问题

时间:2019-04-03 03:02:06

标签: python machine-learning recurrent-neural-network stochastic

最近,我发现了一些有关生成递归模型的论文。所有的都附有子网,例如prior / encoder / decoder / etc。由著名的LSTM单元组成新型RNN单元的聚集。

我只是好奇那些新的RNN单元是否发生了梯度消失/爆炸。这样的组合没有问题吗?

参考文献:

似乎它们都具有与上述相似的模式。

  

A Recurrent Latent Variable Model for Sequential Data

     

Learning Stochastic Recurrent Networks

     

Z-Forcing: Training Stochastic Recurrent Networks

伪代码

递归体系结构的伪代码如下:

def new_rnncell_call(x, htm1):
    #prior_net/posterior_net/decoder_net is single layer or mlp each
    q_prior = prior_net(htm1) # prior step
    q = posterior_net([htm1, x]) # inference step
    z = sample_from(q) # reparameterization trick
    target_dist = decoder_net(z) # generation step
    ht = innerLSTM([z, x], htm1) # recurrent step
    return [q_prior, q, target_dist], ht

让我担心的是,在处理bptt期间,众所周知的LSTM(或GRU等)单元之外的裸机重量没有任何激活逻辑的门控逻辑,即LSTM内的重量。对我来说,这看起来不像堆叠rnn层或仅用于输出的其他密集层。

没有梯度消失/爆炸问题吗?

0 个答案:

没有答案