无法在TensorFlow中收集GradientDescentOptimizer的渐变

时间:2016-01-20 21:49:09

标签: python tensorflow

我一直在尝试为TensorFlow中的GradientDescentOptimizer的每个步骤收集渐变步骤,但是当我尝试将apply_gradients()的结果传递给sess.run()时,我一直遇到TypeError。我正在尝试运行的代码是:

import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data

x = tf.placeholder(tf.float32,[None,784])
W = tf.Variable(tf.zeros([784,10]))
b = tf.Variable(tf.zeros([10]))
y = tf.nn.softmax(tf.matmul(x,W)+b)
y_ = tf.placeholder(tf.float32,[None,10])
cross_entropy = -tf.reduce_sum(y_*log(y))

# note that up to this point, this example is identical to the tutorial on tensorflow.org

gradstep = tf.train.GradientDescentOptimizer(0.01).compute_gradients(cross_entropy)

sess = tf.Session()
sess.run(tf.initialize_all_variables())
batch_x,batch_y = mnist.train.next_batch(100)
print sess.run(gradstep, feed_dict={x:batch_x,y_:batch_y})

请注意,如果我将print sess.run(train_step,feed_dict={x:batch_x,y_:batch_y})的最后一行替换为train_step = tf.GradientDescentOptimizer(0.01).minimize(cross_entropy),则不会引发错误。我的混淆源于minimize调用compute_gradients与第一步完全相同的论点。有人可以解释为什么会出现这种情况吗?

2 个答案:

答案 0 :(得分:11)

Optimizer.compute_gradients()方法返回(TensorVariable)对的列表,其中每个张量是相应变量的渐变。

Session.run()期望Tensor个对象(或可转换为Tensor的对象)列表作为其第一个参数。它不了解如何处理对的列表,因此您得到TypeError,您尝试运行sess.run(gradstep, ...)

正确的解决方案取决于您要做的事情。如果要获取所有渐变值,可以执行以下操作:

grad_vals = sess.run([grad for grad, _ in gradstep], feed_dict={x: batch_x, y: batch_y})

# Then, e.g., nuild a variable name-to-gradient dictionary.
var_to_grad = {}
for grad_val, (_, var) in zip(grad_vals, gradstep):
    var_to_grad[var.name] = grad_val

如果您还想获取变量,可以单独执行以下语句:

sess.run([var for _, var in gradstep])

...虽然注意到 - 如果不对程序进行进一步修改 - 这只会返回每个变量的初始值。 您必须运行优化程序的训练步骤(或以其他方式调用Optimizer.apply_gradients())来更新变量。

答案 1 :(得分:1)

最小化调用compute_gradients,然后执行apply_gradients:您可能错过了第二步。

compute_gradients只返回grads / variables,但不会将更新规则应用于它们。

以下是一个示例:https://github.com/tensorflow/tensorflow/blob/f2bd0fc399606d14b55f3f7d732d013f32b33dd5/tensorflow/python/training/optimizer.py#L69