如何在文档中执行语义相似性

时间:2014-06-25 11:23:30

标签: information-retrieval

我正在做项目我需要根据搜索引擎等搜索查询对文本文档进行排名,但是我需要对具有单词或句子的语义相似性的文档进行排名,我无法开始如何使用java查找语义相似性。是否有任何链接或任何文件,我可以通过它开始找到文档或任何想法中的单词的语义相似性。

2 个答案:

答案 0 :(得分:0)

在术语空间中表示文档的标准方法是将术语视为相互正交或彼此独立,例如:条款" atomic"和"核"尽管是同义的,因此可互换的被视为不同的,但这对词之间的语义相似性应该相当高。

因此,为了实现基于语义相似性的分数,您需要知道一对单词之间的关系,您可以使用以下任何一种单词。

  • 外部资源,例如Wordnet或语义相似性库,例如DISCO
  • 一种语料库分析方法,如潜在语义分析(LSA),它通过组合语义相似的术语来减少术语空间的维度,例如" atomic"和"核"。

答案 1 :(得分:0)

看看这个Demo for semantic similarity

它显示了不同算法的演示。你可以看到哪一个适合你,并尝试使用它。这个" semilar"我认为可以在Java的帮助下使用模块。您可以尝试使用它,我还没有尝试过,但该页面上的演示是相同的。谢谢:))