分布式Tensorflow:检查失败:大小> = 0

时间:2017-07-31 18:42:43

标签: tensorflow tensorflow-gpu

我正在使用keras 2.0.6。 tensorflow的版本是1.3.0。

我的代码可以使用theano后端运行,但是使用tensorflow后端失败:

F tensorflow / core / framework / tensor_shape.cc:241]检查失败:size> = 0(-14428307456 vs. 0)

我想知道是否有人可以想到任何可能导致这种情况的原因。

谢谢!

---- ----- UPDATE

我使用tensorflow在我的PC上测试了完全相同的代码。它完美运行。

然而,当我在超级计算机上运行它时,它会抛出此错误。

虽然这个错误看起来像是溢出,但它没有办法在我的电脑上溢出,但在超级计算机上溢出。

我怀疑它来自分布式计算的张量流的错误。

2 个答案:

答案 0 :(得分:3)

它出现了同样的错误,但是在我批量生产后它运行正常。

我认为原因是它耗尽了GPU内存。

答案 1 :(得分:0)

我遇到了错误,在我的问题中,错误来自具有不同视野的 TF。

错误已解决。 该模型在 tf 1.15 中进行了训练,但在 tf 1.13 中冻结了模型。在 tf 1.15 中冻结时,一切正常。

我想你可以检查模型版本。