当一名工人提前完成时,tensorflow多工人培训陷入困境

时间:2020-07-31 06:26:45

标签: tensorflow-datasets distributed-tensorflow

我们正试图通过设置dataset.repeat(1)来在32个工作人员的正好1个历元上运行张量流训练作业。但是,当其中一个工作程序首先完成其分配的输入文件时,其过程将退出,其他工作程序将开始挂起。这是预期的行为吗?当然,我们可以将纪元数增加到更高,但是在我们的用例中,我们确实希望精确地停止在一个纪元以防止超出范围。请告知是否有办法实现这一目标。谢谢!

0 个答案:

没有答案