空白令牌生成器,用于使用Huggingface从头开始训练BERT语言模型

时间:2020-04-13 20:55:50

标签: pytorch transformer huggingface-transformers

我正在尝试使用Huggingface API从头训练BERT语言模型。为此,我需要构建一个标记生成器,该标记生成器仅基于空白对文本数据进行标记化,而没有其他事情。我了解Huggingface中有多个通配符(例如BPEWordPiece)可以为语言模型带来良好的效果,但是对于我的用例,我想仅基于空白标记输入的文本并生成词汇字词前不应包含任何特殊字符,即“ ##”。

例如:应将输入Hello, y'all! How are you?修改为:

Hello,y'all!Howareyou?

我检查了文档[1][2],但没有找到实现此目标的方法。

0 个答案:

没有答案