标签: apache-spark pyspark apache-spark-sql spark-streaming apache-spark-mllib
为了衡量"善良"分类k-means已经发现我需要计算(在平方和之间)BSS / TSS(平方和总和)比率,如果聚类具有内部内聚力和外部分离的特性,则应接近1。我想知道spark是否具有为我计算BSS / TSS的内部函数,类似于R Kmeans聚类包,以便利用spark集群的并行性。
或者是否有通过其他方式计算BSS / TSS比率的经济有效的方法?