应用错误收集

我正在尝试使用tensorflow实现强化学习，请按照以下论文：http://www.kyb.mpg.de/fileadmin/user_upload/files/publications/attachments/Neural-Netw-2008-21-682_4867%5b0%5d.pdf

在第687页表4中，他们有一个计算最佳基线的公式。但这需要首先获得非聚合渐变，然后进行一些计算然后意味着批次。

但是tf.gradients会返回已经聚合的渐变。有没有办法做到这一点？还有类似的问题：Unaggregated gradients / gradients per example in tensorflow，当然，我们可以在批量大小上执行运行时tf.while_loop，并逐个获得单个渐变，但这会破坏性能。

我可以从tensorflow获得非聚合梯度吗？

0 个答案: