Question

我想知道如何在张量流中使用stop_gradient，文档对我来说并不清楚。

我目前正在使用stop_gradient来生成损失函数的梯度w.r.t.嵌入在CBOW word2vec模型中的单词。我想获得价值，而不是反向传播（因为我正在生成对抗性的例子）。

目前，我正在使用代码：

lossGrad = gradients.gradients(loss, embed)[0]
real_grad = lossGrad.eval(feed_dict)

~~但是当我运行它时，无论如何它都会进行反向传播！~~我做错了什么，同样重要的是，我该如何解决这个问题呢？

澄清：通过“反向传播”澄清我的意思是“计算值并更新模型参数”。

更新

如果我在第一个训练步骤之后运行上面的两行，那么在100次训练步骤之后，我得到的损失与我不运行这两行时相同。我可能从根本上误解了Tensorflow。

我尝试在图表声明的开头和每个训练步骤之前使用set_random_seed进行设置。多次运行之间的总损失是一致的，但不包括/排除这两条线之间。因此，如果不是导致差异的RNG，并且在训练步骤之间没有意外更新模型参数，您是否知道会导致这种行为的原因是什么？

解

Welp，这有点晚了，但这就是我解决它的方式。我只想优化一些但不是全部的变量。我认为防止优化某些变量的方法是使用stop_grad - 但我从来没有找到一种方法来实现这一点。也许有一种方法，但对我有用的是调整我的optimizer以仅优化变量列表。所以而不是：

opt = tf.train.GradientDescentOptimizer(learning_rate=eta)
train_op = opt.minimize(loss)

我用过：

opt = tf.train.GradientDescentOptimizer(learning_rate=eta)
train_op = opt.minimize(loss, var_list=[variables to optimize over])

这阻止了opt更新var_list以外的变量。希望它也适合你！

Answer 1

tf.stop_gradient提供了一种在反向传播期间不计算某些变量的梯度的方法。

例如，在下面的代码中，我们有三个变量，w1，w2，w3和输入x。损失是平方的（（x1.dot（w1） - x.dot（w2 * w3）））。我们希望将这种损失最小化为w1，但希望保持w2和w3不变。为此，我们可以放置tf.stop_gradient（tf.matmul（x，w2 * w3））。

在下图中，我将w1，w2和w3从初始值绘制为训练迭代的函数。可以看出，当w1变化时，w2和w3保持固定，直到它变为等于w2 * w3。

显示w1只学习而不是w2和w3的图像：

import tensorflow as tf
import numpy as np

w1 = tf.get_variable("w1", shape=[5, 1], initializer=tf.truncated_normal_initializer())
w2 = tf.get_variable("w2", shape=[5, 1], initializer=tf.truncated_normal_initializer())
w3 = tf.get_variable("w3", shape=[5, 1], initializer=tf.truncated_normal_initializer())
x = tf.placeholder(tf.float32, shape=[None, 5], name="x")


a1 = tf.matmul(x, w1)
a2 = tf.matmul(x, w2*w3)
a2 = tf.stop_gradient(a2)
loss = tf.reduce_mean(tf.square(a1 - a2))
optimizer = tf.train.GradientDescentOptimizer(learning_rate=0.1)
gradients = optimizer.compute_gradients(loss)
train_op = optimizer.apply_gradients(gradients)

Answer 2

tf.gradients(loss, embed)计算张量loss相对于张量embed的偏导数。 TensorFlow通过反向传播计算这个偏导数，因此评估tf.gradients(...)的结果的预期行为会执行反向传播。但是，评估张量不会执行任何变量更新，因为表达式不包含任何assignment operations。

tf.stop_gradient()是一个在前进方向上充当身份函数的操作，但是阻止累积的梯度在向后方向上流过该操作符。它不会完全阻止反向传播，而是防止单个张量对为表达式计算的梯度做出贡献。 documentation for the operation包含有关操作的更多详细信息以及何时使用它。

如何在Tensorflow

更新

解

2 个答案: