NLP - 当进行愚蠢的退避平滑时,在语料库中不存在unigram时该怎么办

时间:2018-03-06 06:01:43

标签: nlp stanford-nlp smoothing language-model

在为三卦平滑的愚蠢的退避中,如果没有找到trigram,那么我们退回到bigram,如果找不到bigram,我们退回到unigram。但是如果在语料库中不存在unigram会怎么样呢。在paper下愚蠢的退避部分,提到了

  

在   递归以unigrams结束

那么应该将什么概率分配给一个全新的单字组,这在训练数据集中是不存在的。

1 个答案:

答案 0 :(得分:0)

一种解决方案是将零的概率分配给零克,其中V是您的词汇量。或者,也可以用关键字(例如:UNK)替换您的语料库中的稀有词,然后计算初始语料库中的相应概率。