我编写了一个Tensorflow程序,在两个GPU上执行矩阵乘法,然后将结果添加到CPU。
我对此程序进行了概要分析时,似乎无操作操作花费的时间最多。
我的代码如下:
with tf.device(gpu[0]):
print("Using GPU: {}".format(gpu[0]))
a = tf.random_normal([2000, 5000])
b = tf.random_normal([5000, 1000])
res1 = tf.matmul(a, b)
with tf.device(gpu[1]):
print("Using GPU: {}".format(gpu[1]))
a = tf.random_normal([2000, 5000])
b = tf.random_normal([5000, 1000])
res2 = tf.matmul(a, b)
sum_res = None
with tf.device(cpu[0]):
print("Using CPU: {}".format(cpu[0]))
sum_res = tf.add(res1, res2)