我正在尝试实施AWD-LSTM,因此想确保我正确理解辍学技术。我已经阅读了文章和fastai文档,但仍然怀疑我是否正确理解。
Embedding dropout(embed_p)-用零向量替换嵌入单词的可能性。
输入缺失(input_p)-用0替换所选嵌入向量的每个分量的概率。
体重下降(weight_p)-用0替换所有递归矩阵的每个体重的概率。
隐藏(循环)丢失(hidden_p)-替换更新向量的每个分量的可能性(将tanh层的结果与输入门层输出相乘后获得的
从here收到姓名。
我为所有辍学学生提供了正确的定义吗?