我有非常大的solr索引。我想用最能代表该文档的术语标记所有文档,例如this。这种类型的聚类结果是否也属于文档标记?
哪种方法更好,索引时间文档标记或查询时间文档标记如carrot2?
答案 0 :(得分:1)
查询时间有一个明显的缺点,即这会使查询更加昂贵。
但是,查询时的聚类结果可能会更好,因为当时已经看到更多信息,并且可以合并用户反馈。
请注意,从技术上讲,这可能是频繁模式挖掘而不是聚类分析。
也许您应该在整个数据集中尝试频繁模式挖掘的这种变体。您可能甚至不需要存储哪些文档被标记为哪种方式 - 应该已经优化了solr引擎以在需要时再次检索它们。
答案 1 :(得分:0)
我从您的问题中了解到您想知道如何使用solr实现与carrot2
分面相似的内容。
IMO您可以在文档中添加多值字段 tag
(请参阅此Stack Overflow Question以获取示例),然后构建 facet 使用该字段,如Solr wiki here和here中所述。