访问Spark Mllib Bisecting K-means树数据

时间:2017-01-20 21:02:45

标签: apache-spark apache-spark-mllib

查看Bisecting K的源代码 - 意味着它在它进行的每个级别上构建了集群分配的内部树表示。是否可以访问该树?内置方法仅在叶子而不是节点处分配集群。

1 个答案:

答案 0 :(得分:0)

关注此问题:有人修改过Spark ML源代码以能够存储和返回分层聚类树结构吗?

我找到了一个GitHub存储库,其中介绍了MLlib 1.6的平分K均值聚类的实现:https://github.com/yu-iskw/bisecting-kmeans-blog/blob/master/blog-article.md

在“下一步是什么?”部分中,第一个JIRA票据[SPARK-11664]“添加获取平分k均值聚类结构的方法”(https://issues.apache.org/jira/browse/SPARK-11664)似乎是获取分层聚类的请求树结构是一种内在的努力。截至今天,该票证状态已标记为“已解决”。

但是,在以下Spark MLlib的最新实现(2.4.4)中,我们没有找到此树结构或树状图作为内置输出:

PySpark MLlib 2.4.4官方文档: https://spark.apache.org/docs/latest/api/python/pyspark.mllib.html#pyspark.mllib.clustering.BisectingKMeans https://spark.apache.org/docs/latest/api/python/pyspark.mllib.html#pyspark.mllib.clustering.BisectingKMeansModel

Scala MLlib 2.4.4官方文档: https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.mllib.clustering.BisectingKMeans https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.mllib.clustering.BisectingKMeansModel

我们还查看了他们的源代码,似乎没有将分层树结构存储为内置输出?

如果Spark MLlib 2.4.4 BisectingKMeans中不提供分层聚类树结构,那么有人知道是否已修改源代码以使树结构可用?

谢谢!