应用错误收集

时间：2014-08-20 07:41:45

标签： solr document-classification text-classification

我在Solr中构建文档索引。文件是非科学的。

我有一个链接到每个文档的类别，它们可以用于教学。我想在添加时为新文档分配类别。文档会一直添加，而不会重建所有索引。

此外，文档可以是相同的，但来自不同的来源，因此我想制作文档群集。所以当添加文档时 - 我可以搜索过去N天是否已经有这样的话题，如果是，则保存集群ID。

索引大小约为500k文档且不断上升，因此速度很重要。

所以我想计算每个新文档：类别ID（基于预定义文档的培训），集群ID（仅匹配N天，而不是整个索引）。

用SOLR可以做到吗？或者最好做出单独的解决方案（如果是，那么哪一个？）

答案 0 :(得分：1)

solr 6.1和lucene 6.1现在具备此功能。它提供了架子上的knn和朴素贝叶。这是一篇关于如何在solr中使用它的好文章：solr based text classification

答案 1 :(得分：0)

您可以查看Carrot，Result Clustering。但它可能不是你追求的东西。

所以我认为你现在有2个选择：