Solr中的文档聚类

时间:2012-09-12 12:42:56

标签: solr data-mining cluster-analysis mahout

首先,我必须提一下,我的意思是文档聚类作为数据挖掘技术,而不是工作负载聚类或类似的东西。

从一开始我就会说出我拥有的东西:

  • 我一直都在拿文件。让我们假设这些是新闻(这是相当类似的事情)。
  • 每当我收到新批“新闻”时,我都应该将它们添加到Solr索引并获取该文档的群集信息。将此信息存储在数据库中(因此我应该知道每个文档的群集)。
  • 我不能等待群集定义服务/程序不时启动,但它应该动态定义群集。
  • 我希望能够在一段时间内获得群集(例如,我想仅为一个月前加载的文档搜索群集)。
  • 我每天会有成千上万的新文件,总数达数百万。

很久以前我一直在使用一些库(不记得它的名字),它收到文件作为输入,并产生了集群ID,如果它认为它是一个新的集群,那么它创建一个,依此类推。但它运作缓慢(我甚至不记得它的名字)。

我找到了一本关于Mahout的书,但仍然无法弄清楚我应该阅读什么以及我想要什么。而且,也许,如果不为Solr编写自己的插件,就不可能使用Solr / Mahout。

我将很感激任何想法,建议如何建立这样的系统。

先谢谢

2 个答案:

答案 0 :(得分:0)

我认为您不需要任何类型的自定义Solr插件。这是因为新文档的分类可以在“新闻”的正常索引过程中确定,因此您只需将其作为普通字段添加到每个Solr文档中。

当谈到使用Mahout进行聚类和分类时,我会说Mahout in Action本书是一个很好的资源。

干杯。

答案 1 :(得分:0)

而不是旧帖子,但让我回答,您可以使用carrot2 http://project.carrot2.org/index.html进行solr结果聚类。这总是在飞行中。