应用错误收集

Tensorflow第一个时期非常慢（可能与pool_allocator有关）

时间：2017-07-07 09:07:34

标签： tensorflow tcmalloc

我正在训练用TF建造的模型。在第一个时代，TF比下一个时代要慢* 100倍，我看到的消息如下：

I tensorflow/core/common_runtime/gpu/pool_allocator.cc:259] Raising pool_size_limit_ from 958 to 1053

根据建议here，我尝试通过设置LD_PRELOAD="/usr/lib/libtcmalloc.so"来使用tcmalloc，但它没有帮助。

关于如何让第一个纪元跑得更快的任何想法？

1 个答案:

答案 0 :(得分：1)

似乎这是硬件问题。对于第一个纪元TF（与其他DL库相同，如讨论的here之类的PyTorch），如@ {wwwyxx讨论的here一样，缓存有关数据的信息

如果每个数据的大小不同，TF可能会花费大量时间为每个数据运行cudnn基准并将其存储在缓存中