分布式文本聚类框架

时间:2012-06-19 19:41:46

标签: java cluster-analysis hazelcast knn

我需要一个分布式文本聚类框架来支持完整文档集的算法。像carrot2 http://project.carrot2.org/这样的应用程序可以在内存计算中处理文档集,因此非常耗时并且非常高效。如果像lingo,STC,knn等这样的文本聚类算法可以在分布式环境中运行,它们会更快。 是否存在使用诸如hazelcast http://www.hazelcast.com/之类的开源工具的任何框架,或者是否存在更快速且更高效的特定方法。

2 个答案:

答案 0 :(得分:0)

Apache Mahout正是您要找的。

答案 1 :(得分:0)

很少有工具可以做到这一点,Mahout就是其中之一。 Mahout支持3种机器学习算法,推荐,聚类和分类。 Mahout在行动由曼宁出版的书非常好地解释了这一点。请参阅讨论Mahout and Hadoop distributed file system works如何使用案例的博客,该示例更侧重于推荐引擎,但它也可以应用于群集,如 mahout in action 第7章。作为此的前言,我还写了Component architecture这些工具如何适合数据挖掘问题。

Mahout将在独立模式以及Hadoop中运行。决定使用其中任何一个都可以归结为需要挖掘的历史数据的大小。如果数据大小为Terabytes和Petabytes,则通常使用Mahout和Hadoop。 Weka是另一个类似的开源项目。所有这些都属于称为机器学习框架的类别。我希望它有所帮助。