tensorflow/models/research/object_detection/model_tpu_main.py
难道不应该被扔进TPU本身而运行?我以前有从要运行的AWS GPU机器直接运行model_main.py
的经验,但是model_tpu_main.py
似乎想让我传递TPU群集信息标志,即使我这样做,我也不能忽略它们m已经掉入TPU机器了。
我找不到与此相关的任何文档,所以有人可以解释一下它打算如何运行吗?
例如,我尝试过:
python /home/<username>/training/model_tpu_main.py \
--gcp_project=<project_id> \
--tpu_zone=us-central1-b \
--tpu_name=<tpu_name> \
--pipeline_config_path=/home/<username>/training/ssd_resnet50_v1_fpn_shared_box_predictor_640x640_coco14_sync.config \
--model_dir=/home/<username>/training/models \
--mode=train_and_eval \
--train_batch_size=64 \
--eval_training_data=True \
--num_train_steps=50000 \
--sample_1_of_n_eval_examples=1 \
--sample_1_of_n_eval_on_train_examples=5 \
--logtostderr=true
但是出现gcloud错误。我不明白为什么我已经沉迷于gcloud身份验证的原因。
现在看来,应该将对象检测API安装在单独的linux机器上,然后将训练作业发送到TPU,而不是直接在那儿运行?有人可以确认/否认这种情况吗?