应用错误收集

Google CloudML：“完成拆解培训计划”后作业失败，即使培训尚未完成

时间：2019-06-12 09:43:10

标签： python tensorflow google-cloud-platform deep-learning computer-vision

我正在尝试使用Google Cloud Platform（GCP）训练模型。

我选择了standard-1规模层（使用基本层提供了内存异常，我认为这是由于数据大小（2.6GB）所致），但是在日志“ 完成后，我的工作失败了”拆除培训计划”，即使该计划仍在将数据从云存储下载到VM中。

它没有提供有关错误原因的任何回溯。

我将数据存储在Cloud Storage中并使其可用，我使用os.system('gsutil -m cp -r location_of_data_in_cloud_storage os.getcwd()')将数据存储在分配的VM中，以便程序可以直接访问。然后，将这些数据通过生成器加载到model.fit_generator（）方法中。

Job-Log1

Job-Log2

可以看出2.6GB的数据尚未完全下载，但是在此之前作业失败了！

1 个答案:

答案 0 :(得分：0)

以后会偶然发现此问题的其他任何人（可能是我;）），都是由于计算机无法处理计算而发生上述问题，因此我不得不使用standard_p100扩展计算机GCP中的basic比例等级解决了该问题！