我希望重现一个递归神经网络,其中每个时间层后面都有一个丢失层,这些丢失层共享它们的掩码。此结构在A Theoretically Grounded Application of Dropout in Recurrent Neural Networks中有所描述。
据我所知,在MXNet中实现的循环网络模型在时间层之间没有应用任何丢失层; dropout
(R API,Python API等函数的lstm
参数实际上定义了输入的丢失。因此,我需要从头开始重新实现这些功能。
但是,Dropout图层似乎没有采用将mask定义为参数的变量。
是否可以在计算图的不同位置制作多个丢失图层,然后共享其掩码?