在为三卦平滑的愚蠢的退避中,如果没有找到trigram,那么我们退回到bigram,如果找不到bigram,我们退回到unigram。但是如果在语料库中不存在unigram会怎么样呢。在paper下愚蠢的退避部分,提到了
在 递归以unigrams结束
那么应该将什么概率分配给一个全新的单字组,这在训练数据集中是不存在的。
答案 0 :(得分:0)
一种解决方案是将零的概率分配给零克,其中V是您的词汇量。或者,也可以用关键字(例如:UNK)替换您的语料库中的稀有词,然后计算初始语料库中的相应概率。