我正在尝试使用Google Cloud Platform(GCP)训练模型。
我选择了standard-1
规模层(使用基本层提供了内存异常,我认为这是由于数据大小(2.6GB)所致),但是在日志“ 完成后,我的工作失败了”拆除培训计划”,即使该计划仍在将数据从云存储下载到VM中。
它没有提供有关错误原因的任何回溯。
我将数据存储在Cloud Storage中并使其可用,我使用os.system('gsutil -m cp -r location_of_data_in_cloud_storage os.getcwd()')
将数据存储在分配的VM中,以便程序可以直接访问。然后,将这些数据通过生成器加载到model.fit_generator()方法中。
可以看出2.6GB的数据尚未完全下载,但是在此之前作业失败了!
答案 0 :(得分:0)
以后会偶然发现此问题的其他任何人(可能是我;)),都是由于计算机无法处理计算而发生上述问题,因此我不得不使用standard_p100
扩展计算机GCP中的basic
比例等级解决了该问题!