我正在尝试使用维基百科作为数据源来计算逐点互信息(PMI)。给出两个词,PMI定义了两个词之间的关系。公式如下。
.collapse.in, .collapse{
height: 200px;
overflow-y: scroll;
max-height:200px;
}
#instrument.collapsing{
max-height:200px;
}
因此,为了计算PMI,我需要word1和word2的联合和个体概率。我查看了两个单词之间的维基百科矿工相关性得分。他们正在实施Milne和Witten算法。但是,为了定义主题相似性,PMI是一个更好的分数。
是否有人知道如何使用dbpedia或wikipedia miner或任何其他软件计算两个单词的PMI分数。
答案 0 :(得分:1)
我最近发现了几种解决方案。