我正在尝试使用tensorflow实现强化学习,请按照以下论文:http://www.kyb.mpg.de/fileadmin/user_upload/files/publications/attachments/Neural-Netw-2008-21-682_4867%5b0%5d.pdf
在第687页表4中,他们有一个计算最佳基线的公式。但这需要首先获得非聚合渐变,然后进行一些计算然后意味着批次。
但是tf.gradients
会返回已经聚合的渐变。有没有办法做到这一点?还有类似的问题:Unaggregated gradients / gradients per example in tensorflow,当然,我们可以在批量大小上执行运行时tf.while_loop
,并逐个获得单个渐变,但这会破坏性能。