标签: tensorflow tcmalloc
我正在训练用TF建造的模型。在第一个时代,TF比下一个时代要慢* 100倍,我看到的消息如下:
I tensorflow/core/common_runtime/gpu/pool_allocator.cc:259] Raising pool_size_limit_ from 958 to 1053
根据建议here,我尝试通过设置LD_PRELOAD="/usr/lib/libtcmalloc.so"来使用tcmalloc,但它没有帮助。
LD_PRELOAD="/usr/lib/libtcmalloc.so"
关于如何让第一个纪元跑得更快的任何想法?
答案 0 :(得分:1)
似乎这是硬件问题。对于第一个纪元TF(与其他DL库相同,如讨论的here之类的PyTorch),如@ {wwwyxx讨论的here一样,缓存有关数据的信息
如果每个数据的大小不同,TF可能会花费大量时间为每个数据运行cudnn基准并将其存储在缓存中