我的数据集由293个TF记录组成,我在COLAB TPU上从头开始训练BERT。而且由于colab TPU每隔12小时就会关闭一次,因此我需要从保存在GCS存储桶中的检查点重新开始训练。
因此,当重新开始训练时,估计器是从关闭前的最后一批开始继续训练,还是从第一个TFrecord文件中的第一批开始继续训练?
我的tfrecords是使用以下命令(ls ./shards/ | xargs -n 1 -P 8 -I{} python3 bert/create_pretraining_data.py --input_file=./shards/{} --output_file=pretraining_data/{}.tfrecord
使用BERT中的create_pretraining_data.py创建的,其中每个分片包含256000个句子。
这也是所用COLAB笔记本的链接:COLAB