TPU培训在培训过程中冻结

时间:2019-07-28 10:51:40

标签: neural-network cloud google-compute-engine tpu

我正在尝试使用TPU v3-8 1.12实例在TF 1.12中训练CNN回归网。该模型成功地用XLA编译,开始了训练过程,但在某些情况下,在1t历时的半迭代之后冻结了,什么也不做。有什么想法是问题的根源吗?

谢谢

1 个答案:

答案 0 :(得分:0)

最可能的原因是数据预处理功能中的问题,请查看故障排除文档Errors in the middle of training,这可能会有助于获得指导。

我没有发现您的代码有任何奇怪之处。

您是否使用Cloud Storage Buckets处理这些图像和文件?如果是,这些存储桶是否在同一地区?

您可以使用Cloud TPU Audit Logs来确定问题是否与系统中的资源有关或如何访问数据。

最后,我建议您看看Training Mask RCNN on Cloud TPU 文档。