我正在使用unigram语言模型。我想计算每个unigram的概率。我应该将unigram的出现次数除以不同的unigrams数,还是除以所有unigrams的数量?
答案 0 :(得分:10)
除以训练集中tokens的总数,即单词出现次数。原因很容易看出:如果你除以不同单词的数量,所有单词的概率不一定总和为1,因此它们不会形成概率分布。
答案 1 :(得分:2)
有关语言建模的精彩介绍是Jurafsky的幻灯片: http://www.stanford.edu/class/cs124/lec/languagemodeling.pdf
答案 2 :(得分:0)
我参考了奈良科学技术研究所的 PDF,但使用开始标记稍微修改了它的示例。
这个例子是不言自明的。
<s> i live in osaka . </s>
<s> i am a graduate student . </s>
<s> my school is in nara . </s>
令牌总数为 23,包括 <s>
、</s>
和 .
。
什么是p(<s> i live in nara . </s>)
?
p(<s>) = 3/23
p(i) = 2/23
p(live) = 1/23
p(in) = 2/23
p(nara) = 1/23
p(.) = 3/23
p(</s>) = 3/23
p(<s> i live in nara . </s>)
将是
(3/23)*(2/23)*(1/23)*(2/23)*(1/23)*(3/23)*(3/23) = (108)*(1/23)^7