标签: statistics nlp smoothing
在jurafsky和martin的书中,等式(6.16)指出我们可以将训练语料库视为一系列事件 - 一个用于令牌,另一个用于新的N克类型。但随后概率得出的方式,我猜它假设事件是不相交的。但如果下一个单词是新的,那么它的一个事件对应一个令牌以及一个新的N克 - 与不相交事件的假设相矛盾。我在哪里理解它?