我正在使用NVIDIA Tesla P40来训练分类模型。我使用tensorflow的bidirectional_dynamic_rnn来构建bi-lstm网络,并且训练效率很差,只使用了大约30%的计算资源,速度甚至没有比使用具有45个逻辑核心的CPU更快。可以帮助完全使用GPU计算资源提供一些建议,或解释原因?????
答案 0 :(得分:0)
第一个提示:尝试增加batch_size
。它将增加并行使用的数据量,从而减少I / O时间。
请注意,它需要更多GPU内存,因此您必须对其进行调整以避免内存不足错误。