Solr中的文档聚类和分类?

时间:2014-08-20 07:41:45

标签: solr document-classification text-classification

我在Solr中构建文档索引。 文件是非科学的。

我有一个链接到每个文档的类别,它们可以用于教学。我想在添加时为新文档分配类别。文档会一直添加,而不会重建所有索引。

此外,文档可以是相同的,但来自不同的来源,因此我想制作文档群集。所以当添加文档时 - 我可以搜索过去N天是否已经有这样的话题,如果是,则保存集群ID。

索引大小约为500k文档且不断上升,因此速度很重要。

所以我想计算每个新文档:类别ID(基于预定义文档的培训),集群ID(仅匹配N天,而不是整个索引)。

用SOLR可以做到吗?或者最好做出单独的解决方案(如果是,那么哪一个?)

2 个答案:

答案 0 :(得分:1)

solr 6.1和lucene 6.1现在具备此功能。它提供了架子上的knn和朴素贝叶。这是一篇关于如何在solr中使用它的好文章:solr based text classification

答案 1 :(得分:0)

您可以查看CarrotResult Clustering。但它可能不是你追求的东西。

所以我认为你现在有2个选择:

  • 创建Solr插件(基于Carrot或其他插件)
  • 在添加文档之前进行手动查询