如何在BERT上进行语言模型训练

时间:2020-05-28 19:01:44

标签: nlp pytorch huggingface-transformers bert-language-model

我想在目标语料库上训练BERT。我正在看这个HuggingFace implementation。 他们正在使用.raw文件作为训练数据。如果我有训练数据的.txt文件,该如何使用它们的实现?

1 个答案:

答案 0 :(得分:1)

.raw仅表示它们使用WikiText的原始版本,它们是包含原始文本的常规文本文件:

我们正在使用原始的WikiText-2(在标记化之前没有替换任何标记)。

对数据文件选项的描述还表明它们是文本文件。来自run_language_modeling.py - L86-L88

train_data_file: Optional[str] = field(
    default=None, metadata={"help": "The input training data file (a text file)."}
)

因此,您只需指定文本文件即可。