我读到的有关将辍学信息应用于本文的所有内容均由Zaremba et. al引用,该文章表示不会在经常性连接之间应用辍学。应在LSTM层之前或之后随机丢弃神经元,而不是LSTM间层。确定。
在每个人都引用的论文中,似乎是一个随机的辍学面具'在每个时间步长应用,而不是生成一个随机的退出掩码'并重复使用它,将它应用于被丢弃的给定层中的所有时间步长。然后生成一个新的辍学面具'在下一批。
此外,可能更重要的是,tensorflow是如何做到的?我已经检查了tensorflow api并试图寻找详细的解释,但还没找到。
答案 0 :(得分:2)