我正在尝试使用Huggingface API从头训练BERT语言模型。为此,我需要构建一个标记生成器,该标记生成器仅基于空白对文本数据进行标记化,而没有其他事情。我了解Huggingface中有多个通配符(例如BPE
,WordPiece
)可以为语言模型带来良好的效果,但是对于我的用例,我想仅基于空白标记输入的文本并生成词汇字词前不应包含任何特殊字符,即“ ##”。
例如:应将输入Hello, y'all! How are you?
修改为:
Hello,
,y'all!
,How
,are
,you?