为什么在NN训练中GPU使用率会偏低?

时间:2018-09-17 19:08:51

标签: python machine-learning pytorch

我正在使用pytorch在我的GPU上进行一次NN培训。 但是奇怪的是,GPU的使用“受限”在50-60%左右。 那是对计算资源的浪费,但是我不能再提高它了。

我确定硬件可以正常运行,因为同时运行2个进程或训练一个简单的NN(例如DCGAN)都可以占用95%或更多的GPU(这应该是这样的)是) 我的NN包含多个卷积层,应该使用更多的GPU资源。

此外,我猜想来自数据集的数据已经足够快地馈入了,因为我在我的数据加载器实例中使用worker = 64并且磁盘工作正常。

我只是对正在发生的事情感到困惑。

Dev详细信息:

GPU:Nvidia GTX 1080 Ti

os:Ubuntu 64位

1 个答案:

答案 0 :(得分:0)

我只能猜测,无需进一步研究,但是可能是您的网络在层大小方面很小(不是层数),因此培训的每一步都不足以占据全部GPU资源。或者至少数据大小与传输速度(到gpu内存)之间的比率不好,并且GPU在大多数时间都保持空闲状态。

tl; dr:gpu作业的时间不足以证明内存传输合理