我不知道将预训练的BERT模型派生的检查点用于语义文本相似性任务。
我已经从头开始运行带有某些语料库的预训练BERT模型。我从下面的代码中获得了检查点和graph.pbtxt文件。但是我不知道如何使用这些文件来评估语义文本相似性测试文件。
!python create_pretraining_data.py \
--input_file=/input_path/input_file.txt \
--output_file=/tf_path/tf_examples.tfrecord \
--vocab_file=/vocab_path/uncased_L-12_H-768_A-12/vocab.txt \
--do_lower_case=True \
--max_seq_length=128 \
--max_predictions_per_seq=20 \
--masked_lm_prob=0.15 \
--random_seed=12345 \
--dupe_factor=5
!python run_pretraining.py \
--input_file=/tf_path/tf_examples.tfrecord \
--output_dir=pretraining_output \
--do_train=True \
--do_eval=True \
--bert_config_file=/bert_path/uncased_L-12_H-768_A-12/bert_config.json \
--init_checkpoint=/bert_path/uncased_L-12_H-768_A-12/bert_model.ckpt\
--train_batch_size=32 \
--max_seq_length=128 \
--max_predictions_per_seq=20 \
--num_train_steps=20 \
--num_warmup_steps=10 \
--learning_rate=2e-5