文档标记

时间:2012-11-19 06:04:19

标签: solr search-engine data-mining carrot2

我有非常大的solr索引。我想用最能代表该文档的术语标记所有文档,例如this。这种类型的聚类结果是否也属于文档标记?

哪种方法更好,索引时间文档标记或查询时间文档标记如carrot2?

2 个答案:

答案 0 :(得分:1)

查询时间有一个明显的缺点,即这会使查询更加昂贵。

但是,查询时的聚类结果可能会更好,因为当时已经看到更多信息,并且可以合并用户反馈。

请注意,从技术上讲,这可能是频繁模式挖掘而不是聚类分析

也许您应该在整个数据集中尝试频繁模式挖掘的这种变体。您可能甚至不需要存储哪些文档被标记为哪种方式 - 应该已经优化了solr引擎以在需要时再次检索它们。

答案 1 :(得分:0)

我从您的问题中了解到您想知道如何使用solr实现与carrot2分面相似的内容。

IMO您可以在文档中添加多值字段 tag(请参阅此Stack Overflow Question以获取示例),然后构建 facet 使用该字段,如Solr wiki herehere中所述。