该问题适用于熟悉GPT或GPT2 OpenAI模型的人员。特别是带有编码任务(字节对编码)。这是我的问题:
我想知道如何创建自己的vocab.bpe文件。
我有一个西班牙文集文本,我想使用它来适合我自己的bpe编码器。我已经成功地使用python-bpe库创建了encoder.json,但是我对如何获取vocab.bpe文件一无所知。 我已经查看了gpt-2/src/encoder.py中的代码,但是找不到任何提示。有任何帮助或想法吗?
非常感谢您。
答案 0 :(得分:1)
签出here,您可以使用以下命令轻松创建相同的vocab.bpe:
python learn_bpe -o ./vocab.bpe -i dataset.txt --symbols 50000
答案 1 :(得分:0)
我还没有使用GPT2,但是bpemb是一个开始进行子词嵌入的好地方。根据自述文件
BPEmb是基于Byte-Pair编码(BPE)并在Wikipedia上进行训练的275种预训练子词嵌入的集合。它的预期用途是作为自然语言处理中神经模型的输入。
我已经将我的项目中的预训练嵌入与sentencepiece一起使用,结果证明它非常有用。