Question

我想在目标语料库上训练BERT。我正在看这个HuggingFace implementation。他们正在使用.raw文件作为训练数据。如果我有训练数据的.txt文件，该如何使用它们的实现？

Answer 1

.raw仅表示它们使用WikiText的原始版本，它们是包含原始文本的常规文本文件：

我们正在使用原始的WikiText-2（在标记化之前没有替换任何标记）。

对数据文件选项的描述还表明它们是文本文件。来自run_language_modeling.py - L86-L88：

train_data_file: Optional[str] = field(
    default=None, metadata={"help": "The input training data file (a text file)."}
)

因此，您只需指定文本文件即可。