我目前正在研究文档聚类。 我想在我的数据集(文本文档)上运行Java中的Bisecting KMeans。 任何人都可以提供相同的代码。 最终的运行将使用MapReduce在Hadoop中。
谢谢。
答案 0 :(得分:0)
您是否查看了Mahout或Spark MLLib来编写群集算法?这些是Hadoop上机器学习的事实行业标准。两个图书馆都有K-Means(以及其他图书馆),但它们都没有发布版本的Bisecting K-Means。在Github的Spark项目中有一个pull request用于分层K-Means(SPARK-2429)(不确定这是否与Bisecting K-Means相同)。
我想做的另一点是你考虑Spark而不是MapReduce。对于迭代算法,例如K-Means,Spark的性能要高得多。