Question

我在TensorFlow中有一个循环，如下所示：

with tf.device("/gpu:1"):
    losses = []

    for target, output in zip(targets, lstm_outputs):
        logits = tf.matmul(W, output) + b
        loss = tf.nn.sparse_softmax_cross_entropy_with_logits(logits, target)
        losses.append(loss)

    total_loss = tf.add_n(losses)

在为此图层分配渐变时，我收到OOM错误，因为每个矩阵乘法在图形记忆中是不同的操作。有没有办法阻止TensorFlow同时分配所有这些操作？

Answer 1

这是TensorFlow优化的具有挑战性的图表，因为每个层的激活必须保持聚合W的单个梯度。一种可能性是在调用experimental时传递optimizer.optimize() aggregation_method参数。

例如，您可以尝试以下方法：

optimizer = tf.train.AdagradOptimizer(...)  # Or another optimization algorithm.
train_op = optimizer.minimize(
    total_loss,
    aggregation_method=tf.AggregationMethod.EXPERIMENTAL_ACCUMULATE_N)

此选项会急切地聚合循环使用的变量的渐变，而不是将它们全部保留在内存中，直到计算出所有渐变为止。如果这不起作用，tf.AggregationMethod.EXPERIMENTAL_TREE可能会更好。

我如何在TensorFlow中减少循环中的内存消耗？

1 个答案: