我正在研究nlp预处理。在某些时候,我想实现上下文相关的词嵌入,以识别词义,并且我正在考虑使用BERT的输出来实现。我注意到BERT使用字词标记法(例如,“播放”->“播放” +“ ## ing”)。
现在,我使用标准的标记器(对空格/标点符号进行分割)对文本进行了预处理,然后使用了除词器(“正在播放”->“正在播放”)。我想知道字词标记化比标准标记化+词形化有什么好处。我知道字词可以帮助您解决词汇量不足的问题,但是还有别的吗?也就是说,即使我最终没有使用BERT,我是否应该考虑用词片标记化代替我的标记生成器+词条生成器?在什么情况下有用?
答案 0 :(得分:2)
词片标记化有多种帮助,并且应该比词条分解器更好。由于多种原因:
playing
时态和played
是过去式,在词片标记化中不会发生。使用词片标记化来代替tokenizer + lemmatizer只是一种设计选择,词片标记化应该表现良好。但是您可能需要考虑一下,因为词片标记化会增加标记的数量,而词形化则不是这种情况。