solr - Solr中的术语向量

时间：2017-10-04 07:42:37

标签： solr lucene morelikethis

我正在尝试使用MoreLikeThis Solr的功能来查找基于其他文档的类似文档，但我不太明白这些功能是如何工作的。

正如here所述，当存储termVectors时，MoreLikeThis组件效果最佳。这就是我的困惑。

我是否足以在Solr的schema.xml文件中在字段上启用标记termVectors（假设该字段包含电影评论文本）？是否会使Solr在插入后计算给定字段的termVectors，存储它然后在后续调用MoreLikeThis处理程序时使用计算的termVectors？

答案 0 :(得分：3)

简短回答是否定，您需要在这样的架构更改后重新编制索引。启用术语向量将加快从原始输入文档中查找有趣术语的过程（如果此文档在索引中）。第二阶段计时（当更多像这个查询发生时）将保持不变。有关MLT如何工作的更多信息[1]。

通常，在对架构应用此类更改时，需要重新索引文档以使Solr构建相关的数据结构（术语向量是每个文档的迷你索引，并且需要将特定文件存储在磁盘上[2] 注：这会增加你的磁盘利用率）