SOLR文本分析器,用于通过相似性查找和订购文档

时间:2019-09-21 14:30:31

标签: solr lucene

我正在尝试编写文本分析器来查找和订购与用户输入的文本相似的文档,但是我无法达到所需的结果。

这是我想要实现的目标:

  • 应用令牌生成器并过滤到将文本解析为令牌的文档名称字段。我将其用于索引分析器:

    <tokenizer class="solr.NGramTokenizerFactory" minGramSize="2" maxGramSize="15"/>
    <filter class="solr.LowerCaseFilterFactory"/>`
    
  • 接下来,我要创建查询查询分析器,该分析器将用户输入文本按空格划分为标记,并在比较之间使用AND运算符分别比较这些标记。
  • 之后,返回与按相似度排序的每个输入单词的标记匹配的文档
  • 我的意思是how many tokens of user entered word contains stored documents

例如:

  • 如果用户输入hel,他将找到包含hellheliumhello world,...
  • 的文档
  • 当用户添加另一个单词时,我想要优化结果,并返回包含每个输入单词的标记的文档。因此,当用户输入helo word时,我需要增强文档文本hello world,因为此文档匹配更多的令牌,例如heliumhell

您能告诉我什么样的文本分析器才能实现我的搜索目标?我只是从Solr开始,所以我会很乐意提供任何建议。谢谢。

0 个答案:

没有答案