我在GPU上运行tensorflow时发现问题。假设X和X1是占位符:
X = tf.placeholder(tf.int32, name='X', shape=(None, data_len))
X1 = tf.placeholder(tf.int32, name='X1', shape=(num_gpus, None, data_len))
X
和X1[0]
包含相同的功能。但是将X
或X1[0]
馈入同一模型的输出性能是不同的。
有人可以解释吗?
在多个GPU上运行时,馈送数据的标准方法是什么?当前,我正在使用第一个暗淡为num_gpus
的矩阵X1。但是,当我将单个GPU版本和只有一个GPU的多个GPU版本进行比较时,我发现了这个问题,即两个设置的输出性能不同。