应用错误收集

我在GPU上运行tensorflow时发现问题。假设X和X1是占位符：

X = tf.placeholder(tf.int32, name='X', shape=(None, data_len))
X1 = tf.placeholder(tf.int32, name='X1', shape=(num_gpus, None, data_len))

X和X1[0]包含相同的功能。但是将X或X1[0]馈入同一模型的输出性能是不同的。有人可以解释吗？

在多个GPU上运行时，馈送数据的标准方法是什么？当前，我正在使用第一个暗淡为num_gpus的矩阵X1。但是，当我将单个GPU版本和只有一个GPU的多个GPU版本进行比较时，我发现了这个问题，即两个设置的输出性能不同。