Question

我想使用批量梯度下降训练神经网络，但我想并行化该过程。我想将批处理分成小批量，在整个流程中分配梯度计算，然后将它们带回主流程以对它们进行平均并将它们应用到培训中。

作为一个简单的例子，采用这个脚本在N个数据点上训练神经网络的抛物线y = x ^ 2：

import tensorflow as tf
import numpy as np

def add_layer(inputs, in_size, out_size, activation_function=None):
    Weights = tf.Variable(tf.random_normal([in_size, out_size]))
    biases = tf.Variable(tf.random_normal([1, out_size]))
    Wx_plus_b = tf.matmul(inputs, Weights) + biases
    if activation_function is None:
        outputs = Wx_plus_b
    else:
        outputs = activation_function(Wx_plus_b)
    return outputs

# Make up some real data
N = 50
x_data = np.linspace(-2, 2, N)[:, np.newaxis]
noise = np.random.normal(0, 0.05, x_data.shape)
y_data = np.square(x_data) # - 0.5 + noise

# Define placeholder for x_data and y_data
xs = tf.placeholder(tf.float32, [None, 1])
ys = tf.placeholder(tf.float32, [None, 1])

""" Build the network"""
# Add hidden layer
l1 = add_layer(xs, 1, 5, activation_function=tf.tanh)
# Add output layer
prediction = add_layer(l1, 5, 1, activation_function=None)

# Define loss
loss = tf.reduce_mean(tf.reduce_sum(tf.square(ys-prediction), reduction_indices=[1]))

# Define optimizer
opt = tf.train.GradientDescentOptimizer(learning_rate=1e-2)
# Compute the gradients for a list of variables.
grads_and_vars = opt.compute_gradients(loss)
# Ask the optimizer to apply the gradients
train_opt = opt.apply_gradients(grads_and_vars)

# Initialize global variables
sess = tf.Session()
init = tf.global_variables_initializer()
sess.run(init)

for i in range(2000):
    # training
    sess.run(train_opt, feed_dict={xs: x_data, ys: y_data})
    if i % 50 == 0:
        prediction_value = sess.run(prediction, feed_dict={xs: x_data})
        print(sess.run(loss, feed_dict={xs: x_data, ys: y_data}))

我要并行化的部分是渐变的计算，然后我想将这些渐变带回主进程以进行平均，然后应用于训练步骤。我想将x_data中的N个数据点拆分为P个进程。

我认为这就是所谓的＆＃34;同步培训＆＃34;，我已经看到资源，但没有人解释过它。

如何以同步方式并行化这个简单示例？

Answer 1

你可能在同步训练中找不到多少，因为它大部分都被放弃了，转而支持异步训练。

在同步梯度下降中，所有小批量必须完成并且它们各自的梯度同时应用以更新网络参数。在异步情况下，每次从一个小批量的梯度可用时，网络参数都会更新。这些更新或多或少是随机顺序。看起来这种方法无效：例如，让我们说网络参数已经迭代了1342次，你开始为一些小批量计算梯度。到计算完成时，网络参数可能已经更新了1349次，因为7个较旧的迷你批次报告了它们的梯度。因此，您将对网络参数应用渐变校正，而不是在计算开始时指定的那些参数。

从我上面写的看来，异步下降似乎是错误的，但你必须明白随机梯度下降是一个草率/不精确的过程，并且从异步更新中添加额外的邋is并不是有害的。另一方面，在进行同步更新时，某些GPU经常处于空闲状态，因为它们必须等待所有其他GPU完成。

我很快就试图在网上找到适当的参考资料，但却没有。我记得使用异步更新的技巧被不同的组重复发现了很多次。 Jeff Dean有一个旧的paper，但他们不会分析同步与异步。

官方tensorflow文档中有asynchronous training的示例，但可能有更好的教程。

我上面链接的网页也指向此synchronous training example。

TensorFlow并行平均小批量梯度

1 个答案: