我想了解grad_ys
中的tf.gradients
参数。我已经看到它像真正的渐变的倍增器一样使用,但在定义中它不是crear。数学上整个表达式会是什么样的?
答案 0 :(得分:10)
编辑:更好地说明符号here
ys
总结为制作单个标量y
,然后tf.gradients
计算dy/dx
,其中x
表示来自xs
<的变量/ p>
grad_ys
代表&#34;起始&#34; backprop值。它们默认为1,但是当您想要将多个tf.gradients
调用链接在一起时,可以使用不同的值 - 您可以将之前tf.gradients
调用的输出传递到grad_ys
以继续支持流动。
对于正式定义,请在此处查看Reverse Accumulation中的链式表达式:https://en.wikipedia.org/wiki/Automatic_differentiation#Reverse_accumulation
TensorFlow中对应于dy/dw3 * dw3/dw2
的术语是1的向量(想象一下,就像TensorFlow用虚拟身份op包装成本一样)。当您指定grad_ys
时,此字词将替换为grad_ys
而不是1
的