我对教师强迫有一个小误解:
为简单起见,假设我们正在研究一个RNN,该RNN在每个步骤都提供输出o^{t-1}
。此输出是唯一的递归输入,它连接到下一个时间步的隐藏单元h ^ t。
据我了解,最大可能性表示在数学上施加教师强迫等效于通过时间算法执行整个反向传播。换句话说,如果我们对时间进行反向传播,我们将获得相同的结果(当然,要赋予相同的起始权重)。这来自
log p(y^1, y^2 | x^1, x^2) = log p(y^2 | y^1, x^1, x^2) + log p(y^1 | x^1, x^2)
(例如Goodfellow,Bengio,Courville的10.16)。
这是正确的吗?如果是,为什么我们要使用“随机方法”,而要么在每个时间步都不使用老师强迫来改善我们的网络?