应用错误收集

我对Tensorflow中BPTT算法的实现有疑问。根据人们在互联网上所说的话，我认为基本上是这样完成的：

但是，不应该有一个更有效的实现方式吗？即，似乎要计算dO2 / dWf，例如，将需要计算dC2 / dWf和dH2 / dWf。但是，一旦有了这两个梯度，就可以使用它们直接计算dO3 / dWf。那么tensorflow是否在计算梯度时使用任何类似的动态编程技术？