在unigram语言模型中计算单字组概率时,“字数统计”是指什么?

时间:2013-04-25 22:15:55

标签: nlp

我正在使用unigram语言模型。我想计算每个unigram的概率。我应该将unigram的出现次数除以不同的unigrams数,还是除以所有unigrams的数量?

3 个答案:

答案 0 :(得分:10)

除以训练集中tokens的总数,即单词出现次数。原因很容易看出:如果你除以不同单词的数量,所有单词的概率不一定总和为1,因此它们不会形成概率分布。

答案 1 :(得分:2)

有关语言建模的精彩介绍是Jurafsky的幻灯片: http://www.stanford.edu/class/cs124/lec/languagemodeling.pdf

答案 2 :(得分:0)

我参考了奈良科学技术研究所的 PDF,但使用开始标记稍微修改了它的示例。

这个例子是不言自明的。

<s> i live in osaka . </s> 
<s> i am a graduate student . </s>
<s> my school is in nara . </s>

令牌总数为 23,包括 <s></s>.

什么是p(<s> i live in nara . </s>)

p(<s>) = 3/23
p(i) = 2/23
p(live) = 1/23
p(in) = 2/23
p(nara) = 1/23
p(.) = 3/23
p(</s>) = 3/23

p(<s> i live in nara . </s>) 将是

(3/23)*(2/23)*(1/23)*(2/23)*(1/23)*(3/23)*(3/23) = (108)*(1/23)^7