为什么Google cloude ml培训工作会在几个小时内提供零利用率统计信息?

时间:2019-02-22 00:55:38

标签: python tensorflow google-cloud-platform

我正在像这样进行张量流训练工作:

gcloud ml-engine作业提交培训whoami _ object_detection_eval_validation _ date +%s --job-dir = gs:// $ {YOUR_GCS_BUCKET} / train --packages dist / object_detection-0.1.tar.gz, slim / dist / slim-0.1.tar.gz,/ tmp / pycocotools / pycocotools-2.0.tar.gz --module-name object_detection.model_main --runtime-version 1.9 --scale-tier BASIC_GPU --region us-central1 ---model_dir = gs:// $ {YOUR_GCS_BUCKET} / train --pipeline_config_path = gs:// $ {YOUR_GCS_BUCKET} /data/pinches_pipeleine.config --checkpoint_dir = gs:// $ {YOUR_GCS_BUCKET} / train

该作业运行了4个小时(仍在运行),并且正在重复以下日志,这些日志的利用率为零,如下所示:

INFO 2019-02-21 18:33:19 -0600主副本0索引,memory.used [MiB],memory.total [MiB],利用率.gpu [%],power.draw [W] ,power.limit [W]
INFO 2019-02-21 18:33:19 -0600主副本0-0,0 MiB,11441 MiB,0%,27.72 W,149.00 W
INFO 2019-02-21 18:38:19 -0600主副本0索引,memory.used [MiB],memory.total [MiB],利用率.gpu [%],power.draw [W],power。极限[W]
INFO 2019-02-21 18:38:19 -0600 master-replica-0 0,0 MiB,11441 MiB,0%,27.72 W,149.00 W
INFO 2019-02-21 18:43:19 -0600主副本0索引,memory.used [MiB],memory.total [MiB],利用率.gpu [%],power.draw [W],power。极限[W]
INFO 2019-02-21 18:43:19 -0600 master-replica-0 0,0 MiB,11441 MiB,0%,27.72 W,149.00 W

是什么意思?这是否意味着某种错误,或已计划但未运行?它肯定运行了,并进行了初始化。

谢谢

0 个答案:

没有答案