我正在尝试使用ML-Engine
训练一些网络。我的数据库包含约40 000张猫和狗的图像以及边界框,大小为~6GB
。当我尝试开始培训时,出现以下错误:
ERROR 2018-08-14 12:05:57 +0200 service
The replica master 0 ran out-of-memory and exited with a non-zero status of 9(SIGKILL).
To find out more about why your job exited please check the logs: (....)
我尝试从BASIC_GPU
配置切换到STANDARD_1
,但这并没有任何改变。
如果我训练一个较小的数据集,它可以很好地工作,但是对于这个较大的数据集,它总是会在出现此错误时终止。
任何帮助,我们将不胜感激。
答案 0 :(得分:1)
通过将所有数据读入RAM,您的内存不足。解决方案是获取更大的实例类型(例如large_model
或complex_model_l
;有关更多详细信息,请参见docs for machine types)或不一次读取所有数据。
对于后者,请参阅tf.data上的文档。您还可以参考{t {3}},它早于tf.data API。
答案 1 :(得分:0)
“状态9”错误代码。可用的两个选项是移至高存储机器,例如large_model或减少数据集。