Tensorflow是否自动利用Cuda流在单个GPU上并行执行计算图,或者是否应将流手动分配给ops /张量?
答案 0 :(得分:9)
目前,TensorFlow仅使用一个计算流和多个复制流。某些内核可能会选择使用多个流进行计算,同时保持单流语义。
我们的实验表明,自动启用多流不会带来太多性能提升,因为我们的大多数内核足够大,可以利用GPU中的所有处理器。但启用多流将禁用我们当前的设计以积极回收GPU内存。
这是我们将来可能会重新审视的决定。如果发生这种情况,TensorFlow可能会自动将操作/内核分配给不同的Cuda流,而不会将其暴露给用户。