我对分布式张量流有疑问。该问题在此链接上说明: https://github.com/MDP-DL-UNISA/test_distributed_tensorflow.git
在链接上,您可以找到代码和用于重现错误的图像。
正如您在github链接上看到的那样,我尝试使用简单的tf.Session运行代码,并且效果很好。当我们使用MonitoredTrainingSession时,我在github链接上列出了问题。
您可以在github链接上找到完整的代码
当我们使用机器集群时,我需要使用MonitoredTrainingSession来恢复训练。但是,目标是使用MonitoredTrainingSession而不是简单的tf.Session简单地迭代我自己的数据集。
先谢谢了。非常感谢您的帮助。