我正在像这样进行张量流训练工作:
gcloud ml-engine作业提交培训whoami
_ object_detection_eval_validation _ date +%s
--job-dir = gs:// $ {YOUR_GCS_BUCKET} / train --packages dist / object_detection-0.1.tar.gz, slim / dist / slim-0.1.tar.gz,/ tmp / pycocotools / pycocotools-2.0.tar.gz --module-name object_detection.model_main --runtime-version 1.9 --scale-tier BASIC_GPU --region us-central1 ---model_dir = gs:// $ {YOUR_GCS_BUCKET} / train --pipeline_config_path = gs:// $ {YOUR_GCS_BUCKET} /data/pinches_pipeleine.config --checkpoint_dir = gs:// $ {YOUR_GCS_BUCKET} / train >
该作业运行了4个小时(仍在运行),并且正在重复以下日志,这些日志的利用率为零,如下所示:
INFO 2019-02-21 18:33:19 -0600主副本0索引,memory.used [MiB],memory.total [MiB],利用率.gpu [%],power.draw [W] ,power.limit [W]
INFO 2019-02-21 18:33:19 -0600主副本0-0,0 MiB,11441 MiB,0%,27.72 W,149.00 W
INFO 2019-02-21 18:38:19 -0600主副本0索引,memory.used [MiB],memory.total [MiB],利用率.gpu [%],power.draw [W],power。极限[W]
INFO 2019-02-21 18:38:19 -0600 master-replica-0 0,0 MiB,11441 MiB,0%,27.72 W,149.00 W
INFO 2019-02-21 18:43:19 -0600主副本0索引,memory.used [MiB],memory.total [MiB],利用率.gpu [%],power.draw [W],power。极限[W]
INFO 2019-02-21 18:43:19 -0600 master-replica-0 0,0 MiB,11441 MiB,0%,27.72 W,149.00 W
是什么意思?这是否意味着某种错误,或已计划但未运行?它肯定运行了,并进行了初始化。
谢谢