我为SQuAD任务运行了Tensorflow ALBERT模型。我能够使用colab笔记本运行run_squad_v2.py在TPU环境上进行培训和测试。但是,当我尝试在GPU服务器上运行相同的脚本时,它陷入了无限循环。
python ./albert/run_squad_v2.py \
--albert_config_file=./albert_base/albert_config.json \
--output_dir=./exp_output_2 \
--train_file=./SQuAD/train-v2.0.json \
--predict_file=./SQuAD/dev-v2.0.json \
--train_feature_file=./tf_record/squad_v2.0_train.tf_record \
--predict_feature_file=./tf_record/squad_v2.0_dev.tf_record \
--predict_feature_left_file=./tf_record/squad_v2.0_dev.pkl \
--init_checkpoint=./albert_base/model.ckpt-best \
--spm_model_file=./albert_base/30k-clean.model \
--do_lower_case \
--max_seq_length=384 \
--doc_stride=128 \
--max_query_length=64 \
--do_train=True \
--do_predict=False \
--train_batch_size=48 \
--predict_batch_size=8 \
--learning_rate=5e-5 \
--num_train_epochs=2.0 \
--warmup_proportion=.1 \
--save_checkpoints_steps=5000 \
--n_best_size=20 \
--max_answer_length=30 \
--use_tpu=False
python ./albert/run_squad_v2.py \
--albert_config_file=./albert_base/albert_config.json \
--output_dir=./output \
--train_file=./SQuAD/train-v2.0.json \
--predict_file=./SQuAD/dev-v2.0.json \
--train_feature_file=./tf_record/squad_v2.0_train.tf_record \
--predict_feature_file=./tf_record/squad_v2.0_dev.tf_record \
--predict_feature_left_file=./tf_record/squad_v2.0_dev.pkl \
--init_checkpoint=./output/model.ckpt-best \
--spm_model_file=./albert_base/30k-clean.model \
--do_lower_case \
--max_seq_length=384 \
--doc_stride=128 \
--max_query_length=64 \
--do_train=False \
--do_predict=True \
--train_batch_size=48 \
--predict_batch_size=8 \
--learning_rate=5e-5 \
--num_train_epochs=3.0 \
--warmup_proportion=.1 \
--save_checkpoints_steps=5000 \
--n_best_size=20 \
--max_answer_length=30 \
--use_tpu=False
I0512 16:07:28.591775 139980003321600 run_squad_v2.py:467]找到0个文件,全局步骤:5429。正在睡眠。 INFO:tensorflow:找到0个文件 I0512 16:08:28.645783 139980003321600 run_squad_v2.py:464]找到0个文件。 INFO:tensorflow:找到0个文件,全局步骤:5429。正在睡眠。 I0512 16:08:28.645945 139980003321600 run_squad_v2.py:467]找到0个文件,全局步骤:5429。正在睡眠。 INFO:tensorflow:找到0个文件 I0512 16:09:28.654919 139980003321600 run_squad_v2.py:464]找到0个文件。 INFO:tensorflow:找到0个文件,全局步骤:5429。正在睡眠。 I0512 16:09:28.655312 139980003321600 run_squad_v2.py:467]找到0个文件,全局步骤:5429。正在休眠。 INFO:tensorflow:找到0个文件 I0512 16:10:28.713503 139980003321600 run_squad_v2.py:464]找到0个文件。 INFO:tensorflow:找到0个文件,全局步骤:5429。正在睡眠。 I0512 16:10:28.713902 139980003321600 run_squad_v2.py:467]找到0个文件,全局步骤:5429。正在休眠。 INFO:tensorflow:找到0个文件 I0512 16:11:28.773621 139980003321600 run_squad_v2.py:464]找到0个文件。 INFO:tensorflow:找到0个文件,全局步骤:5429。正在睡眠。 I0512 16:11:28.774051 139980003321600 run_squad_v2.py:467]找到0个文件,全局步骤:5429。正在休眠。 INFO:tensorflow:找到0个文件 I0512 16:12:28.825380 139980003321600 run_squad_v2.py:464]找到0个文件。 INFO:tensorflow:找到0个文件,全局步骤:5429。正在睡眠。 I0512 16:12:28.825771 139980003321600 run_squad_v2.py:467]找到0个文件,全局步骤:5429。正在休眠。 INFO:tensorflow:找到0个文件 I0512 16:13:28.879706 139980003321600 run_squad_v2.py:464]找到0个文件。 INFO:tensorflow:找到0个文件,全局步骤:5429。正在睡眠。 I0512 16:13:28.879821 139980003321600 run_squad_v2.py:467]找到0个文件,全局步骤:5429。正在休眠。 INFO:tensorflow:找到0个文件 I0512 16:14:28.912961 139980003321600 run_squad_v2.py:464]找到0个文件。 INFO:tensorflow:找到0个文件,全局步骤:5429。正在睡眠。 I0512 16:14:28.913353 139980003321600 run_squad_v2.py:467]找到0个文件,全局步骤:5429。正在休眠。 INFO:tensorflow:找到0个文件 I0512 16:15:28.970120 139980003321600 run_squad_v2.py:464]找到0个文件。 INFO:tensorflow:找到0个文件,全局步骤:5429。正在睡眠。 I0512 16:15:28.970505 139980003321600 run_squad_v2.py:467]找到0个文件,全局步骤:5429。正在休眠。 INFO:tensorflow:找到0个文件 I0512 16:16:29.024520 139980003321600 run_squad_v2.py:464]找到0个文件。 INFO:tensorflow:找到0个文件,全局步骤:5429。正在睡眠。 I0512 16:16:29.024908 139980003321600 run_squad_v2.py:467]找到0个文件,全局步骤:5429。正在休眠。 INFO:tensorflow:找到0个文件 I0512 16:17:29.072542 139980003321600 run_squad_v2.py:464]找到0个文件。 INFO:tensorflow:找到0个文件,全局步骤:5429。正在睡眠。 I0512 16:17:29.072655 139980003321600 run_squad_v2.py:467]找到0个文件,全局步骤:5429。正在睡眠。 INFO:tensorflow:找到0个文件。