我想在目标语料库上训练BERT。我正在看这个HuggingFace implementation。 他们正在使用.raw文件作为训练数据。如果我有训练数据的.txt文件,该如何使用它们的实现?
答案 0 :(得分:1)
.raw
仅表示它们使用WikiText的原始版本,它们是包含原始文本的常规文本文件:
我们正在使用原始的WikiText-2(在标记化之前没有替换任何标记)。
对数据文件选项的描述还表明它们是文本文件。来自run_language_modeling.py - L86-L88:
train_data_file: Optional[str] = field(
default=None, metadata={"help": "The input training data file (a text file)."}
)
因此,您只需指定文本文件即可。