为什么ALBERT培训和测试脚本陷入无限循环?

时间:2020-05-13 09:07:42

标签: python tensorflow

我为SQuAD任务运行了Tensorflow ALBERT模型。我能够使用colab笔记本运行run_squad_v2.py在TPU环境上进行培训和测试。但是,当我尝试在GPU服务器上运行相同的脚本时,它陷入了无限循环。

培训

python ./albert/run_squad_v2.py \
  --albert_config_file=./albert_base/albert_config.json \
  --output_dir=./exp_output_2 \
  --train_file=./SQuAD/train-v2.0.json \
  --predict_file=./SQuAD/dev-v2.0.json \
  --train_feature_file=./tf_record/squad_v2.0_train.tf_record \
  --predict_feature_file=./tf_record/squad_v2.0_dev.tf_record \
  --predict_feature_left_file=./tf_record/squad_v2.0_dev.pkl \
  --init_checkpoint=./albert_base/model.ckpt-best \
  --spm_model_file=./albert_base/30k-clean.model \
  --do_lower_case \
  --max_seq_length=384 \
  --doc_stride=128 \
  --max_query_length=64 \
  --do_train=True \
  --do_predict=False \
  --train_batch_size=48 \
  --predict_batch_size=8 \
  --learning_rate=5e-5 \
  --num_train_epochs=2.0 \
  --warmup_proportion=.1 \
  --save_checkpoints_steps=5000 \
  --n_best_size=20 \
  --max_answer_length=30 \
  --use_tpu=False

评估

python ./albert/run_squad_v2.py \
  --albert_config_file=./albert_base/albert_config.json \
  --output_dir=./output \
  --train_file=./SQuAD/train-v2.0.json \
  --predict_file=./SQuAD/dev-v2.0.json \
  --train_feature_file=./tf_record/squad_v2.0_train.tf_record \
  --predict_feature_file=./tf_record/squad_v2.0_dev.tf_record \
  --predict_feature_left_file=./tf_record/squad_v2.0_dev.pkl \
  --init_checkpoint=./output/model.ckpt-best \
  --spm_model_file=./albert_base/30k-clean.model \
  --do_lower_case \
  --max_seq_length=384 \
  --doc_stride=128 \
  --max_query_length=64 \
  --do_train=False \
  --do_predict=True \
  --train_batch_size=48 \
  --predict_batch_size=8 \
  --learning_rate=5e-5 \
  --num_train_epochs=3.0 \
  --warmup_proportion=.1 \
  --save_checkpoints_steps=5000 \
  --n_best_size=20 \
  --max_answer_length=30 \
  --use_tpu=False

I0512 16:07:28.591775 139980003321600 run_squad_v2.py:467]找到0个文件,全局步骤:5429。正在睡眠。 INFO:tensorflow:找到0个文件 I0512 16:08:28.645783 139980003321600 run_squad_v2.py:464]找到0个文件。 INFO:tensorflow:找到0个文件,全局步骤:5429。正在睡眠。 I0512 16:08:28.645945 139980003321600 run_squad_v2.py:467]找到0个文件,全局步骤:5429。正在睡眠。 INFO:tensorflow:找到0个文件 I0512 16:09:28.654919 139980003321600 run_squad_v2.py:464]找到0个文件。 INFO:tensorflow:找到0个文件,全局步骤:5429。正在睡眠。 I0512 16:09:28.655312 139980003321600 run_squad_v2.py:467]找到0个文件,全局步骤:5429。正在休眠。 INFO:tensorflow:找到0个文件 I0512 16:10:28.713503 139980003321600 run_squad_v2.py:464]找到0个文件。 INFO:tensorflow:找到0个文件,全局步骤:5429。正在睡眠。 I0512 16:10:28.713902 139980003321600 run_squad_v2.py:467]找到0个文件,全局步骤:5429。正在休眠。 INFO:tensorflow:找到0个文件 I0512 16:11:28.773621 139980003321600 run_squad_v2.py:464]找到0个文件。 INFO:tensorflow:找到0个文件,全局步骤:5429。正在睡眠。 I0512 16:11:28.774051 139980003321600 run_squad_v2.py:467]找到0个文件,全局步骤:5429。正在休眠。 INFO:tensorflow:找到0个文件 I0512 16:12:28.825380 139980003321600 run_squad_v2.py:464]找到0个文件。 INFO:tensorflow:找到0个文件,全局步骤:5429。正在睡眠。 I0512 16:12:28.825771 139980003321600 run_squad_v2.py:467]找到0个文件,全局步骤:5429。正在休眠。 INFO:tensorflow:找到0个文件 I0512 16:13:28.879706 139980003321600 run_squad_v2.py:464]找到0个文件。 INFO:tensorflow:找到0个文件,全局步骤:5429。正在睡眠。 I0512 16:13:28.879821 139980003321600 run_squad_v2.py:467]找到0个文件,全局步骤:5429。正在休眠。 INFO:tensorflow:找到0个文件 I0512 16:14:28.912961 139980003321600 run_squad_v2.py:464]找到0个文件。 INFO:tensorflow:找到0个文件,全局步骤:5429。正在睡眠。 I0512 16:14:28.913353 139980003321600 run_squad_v2.py:467]找到0个文件,全局步骤:5429。正在休眠。 INFO:tensorflow:找到0个文件 I0512 16:15:28.970120 139980003321600 run_squad_v2.py:464]找到0个文件。 INFO:tensorflow:找到0个文件,全局步骤:5429。正在睡眠。 I0512 16:15:28.970505 139980003321600 run_squad_v2.py:467]找到0个文件,全局步骤:5429。正在休眠。 INFO:tensorflow:找到0个文件 I0512 16:16:29.024520 139980003321600 run_squad_v2.py:464]找到0个文件。 INFO:tensorflow:找到0个文件,全局步骤:5429。正在睡眠。 I0512 16:16:29.024908 139980003321600 run_squad_v2.py:467]找到0个文件,全局步骤:5429。正在休眠。 INFO:tensorflow:找到0个文件 I0512 16:17:29.072542 139980003321600 run_squad_v2.py:464]找到0个文件。 INFO:tensorflow:找到0个文件,全局步骤:5429。正在睡眠。 I0512 16:17:29.072655 139980003321600 run_squad_v2.py:467]找到0个文件,全局步骤:5429。正在睡眠。 INFO:tensorflow:找到0个文件。

0 个答案:

没有答案