我正在AI平台上运行一项作业,并且运行了一个多小时,没有进度,没有结果,没有日志(只有很少的日志显示其正在运行)
这是我使用的区域,机器类型,GPU:
"region": "us-central1",
"runtimeVersion": "2.2",
"pythonVersion": "3.7",
"masterConfig": {
"acceleratorConfig": {
"count": "8",
"type": "NVIDIA_TESLA_K80"
}
}
AI平台工作
仅此工作的少量日志
我正在训练的模型很大,并且占用大量内存。作业只是挂在那里,没有任何进度,日志或错误。但是我注意到它在GCP上消耗了12.81 ML单位。通常,如果GPU内存不足,则会抛出“ OOM / resourceExhausted错误”。没有日志,我不知道那里出了什么问题。
我以较小的输入维度运行了另一项工作,并在12分钟内成功完成:
成功的工作
此外,我在训练过程中使用了tf.MirroredStrategy,以便它可以在GPU上分布。
对此有何想法?