在TPU上运行TF对象检测model_tpu_main.py

时间:2018-10-26 18:09:32

标签: google-compute-engine object-detection-api tpu

tensorflow/models/research/object_detection/model_tpu_main.py难道不应该被扔进TPU本身而运行?我以前有从要运行的AWS GPU机器直接运行model_main.py的经验,但是model_tpu_main.py似乎想让我传递TPU群集信息标志,即使我这样做,我也不能忽略它们m已经掉入TPU机器了。

我找不到与此相关的任何文档,所以有人可以解释一下它打算如何运行吗?

例如,我尝试过:

python /home/<username>/training/model_tpu_main.py \
    --gcp_project=<project_id> \
    --tpu_zone=us-central1-b \
    --tpu_name=<tpu_name> \
    --pipeline_config_path=/home/<username>/training/ssd_resnet50_v1_fpn_shared_box_predictor_640x640_coco14_sync.config \
    --model_dir=/home/<username>/training/models \
    --mode=train_and_eval \
    --train_batch_size=64 \
    --eval_training_data=True \
    --num_train_steps=50000 \
    --sample_1_of_n_eval_examples=1 \
    --sample_1_of_n_eval_on_train_examples=5 \
    --logtostderr=true

但是出现gcloud错误。我不明白为什么我已经沉迷于gcloud身份验证的原因。

现在看来,应该将对象检测API安装在单独的linux机器上,然后将训练作业发送到TPU,而不是直接在那儿运行?有人可以确认/否认这种情况吗?

0 个答案:

没有答案