Solr 4术语列表与分析结果不同

时间:2011-12-08 14:40:55

标签: solr lucene full-text-search morelikethis

我试图使用MoreLikeThisComponent来查找类似的文档。有一个结果我想知道MLT使用的术语,因为“interestingTerms”包含的术语不是文本分析结果的一部分。

以下是文本分析中确定的术语:

  • 1er酒店
  • anlag
  • 洛希
  • reservierung

以下是TermsComponent返回的内容:

  • 1er酒店
  • anlag
  • geloscht
  • 廖什
  • P12
  • reservierung
  • schneider.go

因此,根据文本分析的结果,术语“p12”和“schneider.go”不应出现在TermComponent返回的术语列表中。在文本分析期间,术语“geloscht”被“loesch”取代,因此也不应出现在TermsComponent返回的术语列表中。

我的文本分析方法: 首先,我使用PatternReplaceCharFilter删除传递给文本字段的部分文本。原因是,所有文档都包含重复的文本部分。这些文本部分没有语义含义,用于表示文本类型,添加文本的用户以及添加文本块的日期。

TermsComponent返回的两个附加条款来自原始文本,并由PatternReplaceCharFilter删除。

我检查过,MLT识别的“interestingTerms”与TermsComponent返回的相同。我还检查了存储TermVector的字段和没有TermVector的文本字段之间是否存在差异。对于这两种变体,TermsComponent返回相同的术语。

由于MLT使用的术语与文本分析中确定的术语不同,因此MLT会返回太多文档。

有人知道为什么MLT使用术语,而TermComponent会返回不属于文本分析结果的术语吗?

也许有人知道解决方案吗?

为了完整性: 我正在使用2011年12月7日的Solr 4 Trunk二进制版本。

0 个答案:

没有答案