不常见词语的相互信息

时间:2012-09-09 13:15:10

标签: text-mining information-theory

当使用大约3000字的大文档计算两个单词之间的MI时,当我计算文档中没有重复的第一个单词的概率时,它非常低并且对于第二个单词是相同的;这个低值会影响联合概率= p(x) * P(y)导致互信息的值为零或NaN。我怎么能避免这个?

1 个答案:

答案 0 :(得分:-1)

您最好的选择可能是使用负日志概率 - 这将有助于您避免下溢。请注意,p(x) * p(y)-log(p(x)) + -log(p(y))相同。有关详细信息,请consult your friendly neighborhood Wikipedia