标签: tensorflow
我对Tensorflow中BPTT算法的实现有疑问。根据人们在互联网上所说的话,我认为基本上是这样完成的:
但是,不应该有一个更有效的实现方式吗?即,似乎要计算dO2 / dWf,例如,将需要计算dC2 / dWf和dH2 / dWf。但是,一旦有了这两个梯度,就可以使用它们直接计算dO3 / dWf。那么tensorflow是否在计算梯度时使用任何类似的动态编程技术?