Senserelate targetword:为最终用户提供“最佳”替代方案

时间:2013-11-04 14:51:47

标签: java perl wordnet word-sense-disambiguation ws4j

我的问题简介:用户可以搜索术语,RitaWordNet提供了一个名为getSenseIds()的方法来获取相关的感官。到目前为止,我正在使用WS4J(WordNet Similarity for Java,http://code.google.com/p/ws4j/),它具有不同的算法来定义距离。搜索“user”会产生以下结果:

  • 用户
  • 开发者
  • 吸毒者

http://wordnetweb.princeton.edu/perl/webwn?s=user&sub=Search+WordNet&o2=&o0=1&o8=1&o1=1&o7=&o5=&o9=&o6=&o3=&o4=&h=0

Lin-distance是通过比较WS4J中的两个术语来测量的(我认为是targetWord?):

  • 之间的相似性:user和:user = 1.7976931348623157E308
  • 之间的相似性:user和:exploiter = 0.1976958835785797

我想向最终用户返回一个建议,即“用户”意义是最相关/正确的答案,但问题是这取决于句子的其余部分。

例如:“老人是公共交通工具的常客”,“年轻人在学习NLP时成了吸毒者”。

我认为senserelate项目包含了一些我缺失的内容。在搜索过程中,这个帖子也被拾取了: word disambiguation algorithm (Lesk algorithm)

希望有人得到我的问题:)

1 个答案:

答案 0 :(得分:2)

你可能想尝试WordNet :: SenseRelate :: AllWords - 在http://maraca.d.umn.edu有一个在线演示