应用错误收集

Solr中的文档聚类

时间：2012-09-12 12:42:56

标签： solr data-mining cluster-analysis mahout

首先，我必须提一下，我的意思是文档聚类作为数据挖掘技术，而不是工作负载聚类或类似的东西。

从一开始我就会说出我拥有的东西：

我一直都在拿文件。让我们假设这些是新闻（这是相当类似的事情）。
每当我收到新批“新闻”时，我都应该将它们添加到Solr索引并获取该文档的群集信息。将此信息存储在数据库中（因此我应该知道每个文档的群集）。
我不能等待群集定义服务/程序不时启动，但它应该动态定义群集。
我希望能够在一段时间内获得群集（例如，我想仅为一个月前加载的文档搜索群集）。
我每天会有成千上万的新文件，总数达数百万。

很久以前我一直在使用一些库（不记得它的名字），它收到文件作为输入，并产生了集群ID，如果它认为它是一个新的集群，那么它创建一个，依此类推。但它运作缓慢（我甚至不记得它的名字）。

我找到了一本关于Mahout的书，但仍然无法弄清楚我应该阅读什么以及我想要什么。而且，也许，如果不为Solr编写自己的插件，就不可能使用Solr / Mahout。

我将很感激任何想法，建议如何建立这样的系统。

先谢谢

2 个答案:

答案 0 :(得分：0)

我认为您不需要任何类型的自定义Solr插件。这是因为新文档的分类可以在“新闻”的正常索引过程中确定，因此您只需将其作为普通字段添加到每个Solr文档中。

当谈到使用Mahout进行聚类和分类时，我会说Mahout in Action本书是一个很好的资源。

干杯。

答案 1 :(得分：0)

而不是旧帖子，但让我回答，您可以使用carrot2 http://project.carrot2.org/index.html进行solr结果聚类。这总是在飞行中。