通过Lucene / SOLR index找到类似的结果

时间:2013-07-31 05:31:28

标签: solr lucene tags information-retrieval edismax

我们有一个应用程序,用于在大量MS Word文档上标记用户选择。我们使用一个或多个关键字标签标记这些选择,通常是标题标记。我们希望添加一个功能,可以立即分析所选文本,并向标记器显示最可能的关键字和标题标签列表(基于现有的标记文本选择)

我们正在使用SOLR索引。有人告诉我,我们可以简单地将所选文本作为查询本身发出,以返回类似的选择。但是,所选文本可以是200到6000个字长。 6000字查询可能是内存使用方面的问题!

我认为我们可以做一些非常积极的删除词来显着减少查询中的单词数量,只留下非常有意义的单词。在过去的10年里,我们一直在使用这个语料库,我们对主题和使用的词汇非常熟悉,所以这对我们来说很容易。但问题是我们也使用相同的索引来允许普通用户搜索索引,如果我们删除太多常用词,那么他们的正常查询可能无法正常工作(尤其是短语查询)。

我们还希望在较小的范围内提升包含查询文本的结果,而不是在整个文档中随意传播。

另一个问题是我们允许嵌套选择。外部选择本质上可以更通用,并且长约5000字,内部选择将更短并且局部更具体。但是,由于两个选项都包含相同的文本,因此当外部选择可能不那么相关时,SOLR会对它们进行高度排名

我花了最近几天通过SOLR查询解析器文档,看起来这应该是可行的,但我仍然不确定我需要做些什么来使这项工作。任何建议都会非常感激。

1 个答案:

答案 0 :(得分:0)

Solr拥有多核设施。因此,如果您的内部工作可以拥有一个核心,并且您可以为公共领域揭示其他核心,则可以解决您的问题。 您可以参考此部分 http://wiki.apache.org/solr/Solr.xml%20(supported%20through%204.x)  或者您可以在solr参考手册中引用Solr核心和solr.xml部分。