Wordpiece标记化与传统lemmatization?

时间:2019-07-16 13:07:37

标签: nlp

我正在研究nlp预处理。在某些时候,我想实现上下文相关的词嵌入,以识别词义,并且我正在考虑使用BERT的输出来实现。我注意到BERT使用字词标记法(例如,“播放”->“播放” +“ ## ing”)。

现在,我使用标准的标记器(对空格/标点符号进行分割)对文本进行了预处理,然后使用了除词器(“正在播放”->“正在播放”)。我想知道字词标记化比标准标记化+词形化有什么好处。我知道字词可以帮助您解决词汇量不足的问题,但是还有别的吗?也就是说,即使我最终没有使用BERT,我是否应该考虑用词片标记化代替我的标记生成器+词条生成器?在什么情况下有用?

1 个答案:

答案 0 :(得分:2)

词片标记化有多种帮助,并且应该比词条分解器更好。由于多种原因:

  1. 如果要用词“ playful”,“ playing”,“ played”来形容为“ play”,则会丢失一些信息,例如playing时态和played是过去式,在词片标记化中不会发生。
  2. 分词标记涵盖所有词,甚至包括字典中未出现的词。它会拆分单词,并且会有单词标记,这样一来,您应该为拆分后的单词嵌入文字,而不是删除单词或用“未知”标记替换。

使用词片标记化来代替tokenizer + lemmatizer只是一种设计选择,词片标记化应该表现良好。但是您可能需要考虑一下,因为词片标记化会增加标记的数量,而词形化则不是这种情况。