我正在尝试使用MoreLikeThis Solr的功能来查找基于其他文档的类似文档,但我不太明白这些功能是如何工作的。
正如here所述,当存储termVectors
时,MoreLikeThis组件效果最佳。这就是我的困惑。
我是否足以在Solr的schema.xml文件中在字段上启用标记termVectors
(假设该字段包含电影评论文本)?是否会使Solr在插入后计算给定字段的termVectors,存储它然后在后续调用MoreLikeThis处理程序时使用计算的termVectors?
答案 0 :(得分:3)
简短回答是否定,您需要在这样的架构更改后重新编制索引。 启用术语向量将加快从原始输入文档中查找有趣术语的过程(如果此文档在索引中)。 第二阶段计时(当更多像这个查询发生时)将保持不变。 有关MLT如何工作的更多信息[1]。
通常,在对架构应用此类更改时,需要重新索引文档以使Solr构建相关的数据结构(术语向量是每个文档的迷你索引,并且需要将特定文件存储在磁盘上[2] 注:这会增加你的磁盘利用率)
[1] https://www.slideshare.net/AlessandroBenedetti/advanced-document-similarity-with-apache-lucene