我想将聚类与KMeans,平分KMeans和Pyspark中的高斯混合模型(GMM)进行比较。 Link to website。在前两个中,我可以使用model.computeCost(dataset)计算成本。但是,GMM没有computeCost方法。我应该如何自己实施?
这是网站上的示例:
from pyspark.ml.clustering import GaussianMixture
dataset = spark.read.format("libsvm").load("data/mllib/sample_kmeans_data.txt")
gmm = GaussianMixture().setK(2).setSeed(538009335)
model = gmm.fit(dataset)
数据可用here.