张量流中的运行基准测试期间发生一些奇怪的错误

时间:2018-10-18 03:42:13

标签: tensorflow

我正在研究tensorflow 1.6版,并试图训练tensorflow基准模型。但是,在训练过程中出现了一些奇怪的错误。

此错误在训练过程中随机发生(有时以1xxx步,2xxx步等..)。我没办法弄清楚。改组数据后似乎发生了错误,但不确定。它由1名PS和1名工人进行了分布式培训。但是,该错误也发生在单次训练中(我进行实验并得到了类似的错误)。

Tensorflow版本:1.6

基准版本:支持1.5以上

GPU:1 K80

我可以得到一些建议吗?我得到下面的图。

enter image description here

谢谢。

0 个答案:

没有答案