多项朴素贝叶斯模型中文档的概率

时间:2013-01-03 22:47:53

标签: nlp

令我惭愧的是,我无法完全理解多项朴素贝叶斯模型中文档概率公式中片段的含义。 这是关于纸A Comparison of Event Models for Naive Bayes Text Classication,公式#5:

enter image description here

有问题的片段是P(|d_i|) - 我无法完全理解,这个概率意味着什么?它只是第i个文件的概率吗?如果是,为什么它包含|...|操作?

1 个答案:

答案 0 :(得分:1)

|d_i|是第i个文档中的单词数。 P(|d_i|)术语是生成具有|d_i|个字的文档的概率。