Question

我正在使用unigram语言模型。我想计算每个unigram的概率。我应该将unigram的出现次数除以不同的unigrams数，还是除以所有unigrams的数量？

Answer 1

除以训练集中tokens的总数，即单词出现次数。原因很容易看出：如果你除以不同单词的数量，所有单词的概率不一定总和为1，因此它们不会形成概率分布。

Answer 2

Answer 3

我参考了奈良科学技术研究所的 PDF，但使用开始标记稍微修改了它的示例。

这个例子是不言自明的。

<s> i live in osaka . </s> 
<s> i am a graduate student . </s>
<s> my school is in nara . </s>

令牌总数为 23，包括 <s>、</s> 和 .。

什么是p(<s> i live in nara . </s>)？

p(<s>) = 3/23
p(i) = 2/23
p(live) = 1/23
p(in) = 2/23
p(nara) = 1/23
p(.) = 3/23
p(</s>) = 3/23

p(<s> i live in nara . </s>) 将是

(3/23)*(2/23)*(1/23)*(2/23)*(1/23)*(3/23)*(3/23) = (108)*(1/23)^7