Question

我有张量流模型，其中批量中的每个张量具有不同的大小。如果我连接所有损失并在其上运行优化器就可以得到正确的渐变：如下例所示：

import tensorflow as tf

v1 = tf.range(9,dtype=tf.float32)
v2 = tf.range(6,dtype=tf.float32)
v1 = tf.reshape(v1,[3,3])
v2 = tf.reshape(v2,[2,3])

gt1 = tf.constant([2,5,4])
gt2 = tf.constant([1,5])

with tf.variable_scope("var"):
    w = tf.get_variable('w', [3,7], dtype=tf.float32)
    r1 = v1 @ w
    r2 = v2 @ w

loss1 = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=gt1, logits=r1)
loss2 = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=gt2, logits=r2)

loss = tf.concat([loss1, loss2],axis=0)
optimizer = tf.train.AdamOptimizer().minimize(loss)

with tf.Session() as sess:
    # print the output of ta_final_result
    sess.run(tf.global_variables_initializer())
    print(sess.run(w))
    print(sess.run(optimizer))
    print(sess.run(w))

Answer 1

这相当于在将loss传递给minimize之前将其归结为标量。事实上，reduce_sum将隐式添加到图表中;您可以尝试将非标量传递给tf.gradients，看看会发生什么：

import tensorflow as tf
session = tf.InteractiveSession()
v = tf.get_variable("v", shape=[])
session.run(v.assign(2.))
grad = tf.gradients([v ** 2., v ** 3.], [v])
session.run(grad)

16.0

这是2 * 2 + 3 * 2 ^ 2.

具有可变批量大小的Tensorflow Backpropagation

1 个答案: