我正在尝试使用TPU v3-8 1.12实例在TF 1.12中训练CNN回归网。该模型成功地用XLA编译,开始了训练过程,但在某些情况下,在1t历时的半迭代之后冻结了,什么也不做。有什么想法是问题的根源吗?
谢谢
答案 0 :(得分:0)
最可能的原因是数据预处理功能中的问题,请查看故障排除文档Errors in the middle of training,这可能会有助于获得指导。
我没有发现您的代码有任何奇怪之处。
您是否使用Cloud Storage Buckets处理这些图像和文件?如果是,这些存储桶是否在同一地区?
您可以使用Cloud TPU Audit Logs来确定问题是否与系统中的资源有关或如何访问数据。
最后,我建议您看看Training Mask RCNN on Cloud TPU 文档。