使用维基百科计算两个单词的语义PMI

时间:2015-06-26 12:39:28

标签: nlp text-mining dbpedia

我正在尝试使用维基百科作为数据源来计算逐点互信息(PMI)。给出两个词,PMI定义了两个词之间的关系。公式如下。

.collapse.in, .collapse{ height: 200px; overflow-y: scroll; max-height:200px; } #instrument.collapsing{ max-height:200px; }

因此,为了计算PMI,我需要word1和word2的联合和个体概率。我查看了两个单词之间的维基百科矿工相关性得分。他们正在实施Milne和Witten算法。但是,为了定义主题相似性,PMI是一个更好的分数。

是否有人知道如何使用dbpedia或wikipedia miner或任何其他软件计算两个单词的PMI分数。

1 个答案:

答案 0 :(得分:1)

我最近发现了几种解决方案。

  1. 对于python界面使用剖析。解剖需要共现矩阵作为输入。可以使用python轻松构建Co出现矩阵。
  2. 我也很喜欢github中的Palmetto project。对于Palmetto,您需要创建lucene索引。它们提供了用于构建lucene索引的代码片段。