我在Solr中构建文档索引。 文件是非科学的。
我有一个链接到每个文档的类别,它们可以用于教学。我想在添加时为新文档分配类别。文档会一直添加,而不会重建所有索引。
此外,文档可以是相同的,但来自不同的来源,因此我想制作文档群集。所以当添加文档时 - 我可以搜索过去N天是否已经有这样的话题,如果是,则保存集群ID。
索引大小约为500k文档且不断上升,因此速度很重要。
所以我想计算每个新文档:类别ID(基于预定义文档的培训),集群ID(仅匹配N天,而不是整个索引)。
用SOLR可以做到吗?或者最好做出单独的解决方案(如果是,那么哪一个?)
答案 0 :(得分:1)
solr 6.1和lucene 6.1现在具备此功能。它提供了架子上的knn和朴素贝叶。这是一篇关于如何在solr中使用它的好文章:solr based text classification
答案 1 :(得分:0)