我创建了一个带有 2 隐藏图层的神经网络分类器。 隐藏图层单位[50,25]
。
该模型在 CPU 上的训练速度比 GPU 快得多。
我的问题是:
我该如何调试?
我尝试增加批量大小,期望在一些batch_size
GPU超过CPU之后。但我没有看到这种情况发生。
我的代码位于 Tensorflow 1.4。
答案 0 :(得分:0)
考虑到网络的规模(非常小),我倾向于认为这是一个DMA问题:将数据从CPU复制到GPU是昂贵的,可能足够昂贵,以至于它弥补了GPU的速度更快做更大的矩阵乘法。