Google CloudML:“完成拆解培训计划”后作业失败,即使培训尚未完成

时间:2019-06-12 09:43:10

标签: python tensorflow google-cloud-platform deep-learning computer-vision

我正在尝试使用Google Cloud Platform(GCP)训练模型。

我选择了standard-1规模层(使用基本层提供了内存异常,我认为这是由于数据大小(2.6GB)所致),但是在日志“ 完成后,我的工作失败了”拆除培训计划”,即使该计划仍在将数据从云存储下载到VM中。

它没有提供有关错误原因的任何回溯。

我将数据存储在Cloud Storage中并使其可用,我使用os.system('gsutil -m cp -r location_of_data_in_cloud_storage os.getcwd()')将数据存储在分配的VM中,以便程序可以直接访问。然后,将这些数据通过生成器加载到model.fit_generator()方法中。

Job-Log1

Job-Log2

可以看出2.6GB的数据尚未完全下载,但是在此之前作业失败了!

1 个答案:

答案 0 :(得分:0)

以后会偶然发现此问题的其他任何人(可能是我;)),都是由于计算机无法处理计算而发生上述问题,因此我不得不使用standard_p100扩展计算机GCP中的basic比例等级解决了该问题!