应用错误收集

我正在像这样进行张量流训练工作：

gcloud ml-engine作业提交培训whoami _ object_detection_eval_validation _ date +%s --job-dir = gs：// $ {YOUR_GCS_BUCKET} / train --packages dist / object_detection-0.1.tar.gz， slim / dist / slim-0.1.tar.gz，/ tmp / pycocotools / pycocotools-2.0.tar.gz --module-name object_detection.model_main --runtime-version 1.9 --scale-tier BASIC_GPU --region us-central1 ---model_dir = gs：// $ {YOUR_GCS_BUCKET} / train --pipeline_config_path = gs：// $ {YOUR_GCS_BUCKET} /data/pinches_pipeleine.config --checkpoint_dir = gs：// $ {YOUR_GCS_BUCKET} / train

该作业运行了4个小时（仍在运行），并且正在重复以下日志，这些日志的利用率为零，如下所示：

INFO 2019-02-21 18:33:19 -0600主副本0索引，memory.used [MiB]，memory.total [MiB]，利用率.gpu [％]，power.draw [W] ，power.limit [W]
INFO 2019-02-21 18:33:19 -0600主副本0-0，0 MiB，11441 MiB，0％，27.72 W，149.00 W
INFO 2019-02-21 18:38:19 -0600主副本0索引，memory.used [MiB]，memory.total [MiB]，利用率.gpu [％]，power.draw [W]，power。极限[W]
INFO 2019-02-21 18:38:19 -0600 master-replica-0 0，0 MiB，11441 MiB，0％，27.72 W，149.00 W
INFO 2019-02-21 18:43:19 -0600主副本0索引，memory.used [MiB]，memory.total [MiB]，利用率.gpu [％]，power.draw [W]，power。极限[W]
INFO 2019-02-21 18:43:19 -0600 master-replica-0 0，0 MiB，11441 MiB，0％，27.72 W，149.00 W

是什么意思？这是否意味着某种错误，或已计划但未运行？它肯定运行了，并进行了初始化。

谢谢

为什么Google cloude ml培训工作会在几个小时内提供零利用率统计信息？

0 个答案: