Question

我正在尝试使用ML-Engine训练一些网络。我的数据库包含约40 000张猫和狗的图像以及边界框，大小为~6GB。当我尝试开始培训时，出现以下错误：

ERROR   2018-08-14 12:05:57 +0200   service
  The replica master 0 ran out-of-memory and exited with a non-zero status of 9(SIGKILL).
  To find out more about why your job exited please check the logs: (....)

我尝试从BASIC_GPU配置切换到STANDARD_1，但这并没有任何改变。

如果我训练一个较小的数据集，它可以很好地工作，但是对于这个较大的数据集，它总是会在出现此错误时终止。

任何帮助，我们将不胜感激。

Answer 1

通过将所有数据读入RAM，您的内存不足。解决方案是获取更大的实例类型（例如large_model或complex_model_l；有关更多详细信息，请参见docs for machine types）或不一次读取所有数据。

对于后者，请参阅tf.data上的文档。您还可以参考{t {3}}，它早于tf.data API。

Answer 2

由于内存不足，出现

“状态9”错误代码。可用的两个选项是移至高存储机器，例如large_model或减少数据集。

错误：在训练时，“副本主服务器0内存不足并以非零状态9（SIGKILL）退出”

2 个答案: