Solr中的术语向量

时间:2017-10-04 07:42:37

标签: solr lucene morelikethis

我正在尝试使用MoreLikeThis Solr的功能来查找基于其他文档的类似文档,但我不太明白这些功能是如何工作的。

正如here所述,当存储termVectors时,MoreLikeThis组件效果最佳。这就是我的困惑。

我是否足以在Solr的schema.xml文件中在字段上启用标记termVectors(假设该字段包含电影评论文本)?是否会使Solr在插入后计算给定字段的termVectors,存储它然后在后续调用MoreLikeThis处理程序时使用计算的termVectors?

1 个答案:

答案 0 :(得分:3)

简短回答是否定,您需要在这样的架构更改后重新编制索引。 启用术语向量将加快从原始输入文档中查找有趣术语的过程(如果此文档在索引中)。 第二阶段计时(当更多像这个查询发生时)将保持不变。 有关MLT如何工作的更多信息[1]。

通常,在对架构应用此类更改时,需要重新索引文档以使Solr构建相关的数据结构(术语向量是每个文档的迷你索引,并且需要将特定文件存储在磁盘上[2] 注:这会增加你的磁盘利用率)

[1] https://www.slideshare.net/AlessandroBenedetti/advanced-document-similarity-with-apache-lucene

[2] https://lucene.apache.org/core/6_6_0/core/org/apache/lucene/codecs/lucene50/Lucene50TermVectorsFormat.html