标签: tensorflow
我正在研究tensorflow 1.6版,并试图训练tensorflow基准模型。但是,在训练过程中出现了一些奇怪的错误。
此错误在训练过程中随机发生(有时以1xxx步,2xxx步等..)。我没办法弄清楚。改组数据后似乎发生了错误,但不确定。它由1名PS和1名工人进行了分布式培训。但是,该错误也发生在单次训练中(我进行实验并得到了类似的错误)。
Tensorflow版本:1.6
基准版本:支持1.5以上
GPU:1 K80
我可以得到一些建议吗?我得到下面的图。
谢谢。