Tensorflow第一个时期非常慢(可能与pool_allocator有关)

时间:2017-07-07 09:07:34

标签: tensorflow tcmalloc

我正在训练用TF建造的模型。在第一个时代,TF比下一个时代要慢* 100倍,我看到的消息如下:

I tensorflow/core/common_runtime/gpu/pool_allocator.cc:259] Raising pool_size_limit_ from 958 to 1053

根据建议here,我尝试通过设置LD_PRELOAD="/usr/lib/libtcmalloc.so"来使用tcmalloc,但它没有帮助。

关于如何让第一个纪元跑得更快的任何想法?

1 个答案:

答案 0 :(得分:1)

似乎这是硬件问题。对于第一个纪元TF(与其他DL库相同,如讨论的here之类的PyTorch),如@ {wwwyxx讨论的here一样,缓存有关数据的信息

  

如果每个数据的大小不同,TF可能会花费大量时间为每个数据运行cudnn基准并将其存储在缓存中