所有
我在此guide之后使用deeplab v3 +开始培训过程。但是,在步骤1480之后,我收到错误:
Error reported to Coordinator: Nan in summary histogram for: image_pooling/BatchNorm/moving_variance_2
详细的火车日志是here
有人可以建议如何解决这个问题吗? THX!
答案 0 :(得分:4)
根据日志,您似乎正在使用batch_size = 1,fine_tune_batch_norm = True(默认值)进行培训。由于您在培训期间对批次规范进行了微调,因此最好将批量大小设置为尽可能大(请参阅comments中的FAQ和model_zoo.md中的Q5)。如果只有有限的GPU内存可用,您可以从提供的预训练检查点进行微调,设置较小的学习率和 fine_tune_batch_norm = False (参见{{3}}详情)。注意确保标志tf_initial_checkpoint具有到达所需预训练检查点的正确路径。