应用错误收集

TPU培训在培训过程中冻结

时间：2019-07-28 10:51:40

标签： neural-network cloud google-compute-engine tpu

我正在尝试使用TPU v3-8 1.12实例在TF 1.12中训练CNN回归网。该模型成功地用XLA编译，开始了训练过程，但在某些情况下，在1t历时的半迭代之后冻结了，什么也不做。有什么想法是问题的根源吗？

谢谢

1 个答案:

答案 0 :(得分：0)

最可能的原因是数据预处理功能中的问题，请查看故障排除文档Errors in the middle of training，这可能会有助于获得指导。

我没有发现您的代码有任何奇怪之处。

您是否使用Cloud Storage Buckets处理这些图像和文件？如果是，这些存储桶是否在同一地区？

您可以使用Cloud TPU Audit Logs来确定问题是否与系统中的资源有关或如何访问数据。

最后，我建议您看看Training Mask RCNN on Cloud TPU 文档。