在城市景观语义分段数据集的deeplab v3 +培训期间遇到错误

时间:2018-03-13 09:21:47

标签: tensorflow semantic-segmentation

所有

我在此guide之后使用deeplab v3 +开始培训过程。但是,在步骤1480之后,我收到错误:

Error reported to Coordinator: Nan in summary histogram for: image_pooling/BatchNorm/moving_variance_2

详细的火车日志是here

有人可以建议如何解决这个问题吗? THX!

1 个答案:

答案 0 :(得分:4)

根据日志,您似乎正在使用batch_size = 1,fine_tune_batch_norm = True(默认值)进行培训。由于您在培训期间对批次规范进行了微调,因此最好将批量大小设置为尽可能大(请参阅comments中的FAQmodel_zoo.md中的Q5)。如果只有有限的GPU内存可用,您可以从提供的预训练检查点进行微调,设置较小的学习率 fine_tune_batch_norm = False (参见{{3}}详情)。注意确保标志tf_initial_checkpoint具有到达所需预训练检查点的正确路径。