首先,我必须提一下,我的意思是文档聚类作为数据挖掘技术,而不是工作负载聚类或类似的东西。
从一开始我就会说出我拥有的东西:
很久以前我一直在使用一些库(不记得它的名字),它收到文件作为输入,并产生了集群ID,如果它认为它是一个新的集群,那么它创建一个,依此类推。但它运作缓慢(我甚至不记得它的名字)。
我找到了一本关于Mahout的书,但仍然无法弄清楚我应该阅读什么以及我想要什么。而且,也许,如果不为Solr编写自己的插件,就不可能使用Solr / Mahout。
我将很感激任何想法,建议如何建立这样的系统。
先谢谢
答案 0 :(得分:0)
我认为您不需要任何类型的自定义Solr插件。这是因为新文档的分类可以在“新闻”的正常索引过程中确定,因此您只需将其作为普通字段添加到每个Solr文档中。
当谈到使用Mahout进行聚类和分类时,我会说Mahout in Action本书是一个很好的资源。
干杯。
答案 1 :(得分:0)
而不是旧帖子,但让我回答,您可以使用carrot2 http://project.carrot2.org/index.html进行solr结果聚类。这总是在飞行中。