Question

该问题适用于熟悉GPT或GPT2 OpenAI模型的人员。特别是带有编码任务（字节对编码）。这是我的问题：

我想知道如何创建自己的vocab.bpe文件。

我有一个西班牙文集文本，我想使用它来适合我自己的bpe编码器。我已经成功地使用python-bpe库创建了encoder.json，但是我对如何获取vocab.bpe文件一无所知。我已经查看了gpt-2/src/encoder.py中的代码，但是找不到任何提示。有任何帮助或想法吗？

非常感谢您。

Answer 1

签出here，您可以使用以下命令轻松创建相同的vocab.bpe：

python learn_bpe -o ./vocab.bpe -i dataset.txt --symbols 50000

Answer 2

我还没有使用GPT2，但是bpemb是一个开始进行子词嵌入的好地方。根据自述文件

BPEmb是基于Byte-Pair编码（BPE）并在Wikipedia上进行训练的275种预训练子词嵌入的集合。它的预期用途是作为自然语言处理中神经模型的输入。

我已经将我的项目中的预训练嵌入与sentencepiece一起使用，结果证明它非常有用。