应用错误收集

不常见词语的相互信息

时间：2012-09-09 13:15:10

标签： text-mining information-theory

当使用大约3000字的大文档计算两个单词之间的MI时，当我计算文档中没有重复的第一个单词的概率时，它非常低并且对于第二个单词是相同的;这个低值会影响联合概率= p(x) * P(y)导致互信息的值为零或NaN。我怎么能避免这个？

1 个答案:

答案 0 :(得分：-1)

您最好的选择可能是使用负日志概率 - 这将有助于您避免下溢。请注意，p(x) * p(y)与-log(p(x)) + -log(p(y))相同。有关详细信息，请consult your friendly neighborhood Wikipedia。