当使用大约3000字的大文档计算两个单词之间的MI时,当我计算文档中没有重复的第一个单词的概率时,它非常低并且对于第二个单词是相同的;这个低值会影响联合概率= p(x) * P(y)
导致互信息的值为零或NaN。我怎么能避免这个?
答案 0 :(得分:-1)
您最好的选择可能是使用负日志概率 - 这将有助于您避免下溢。请注意,p(x) * p(y)
与-log(p(x)) + -log(p(y))
相同。有关详细信息,请consult your friendly neighborhood Wikipedia。