当我阅读Pyspark here的ML包时,似乎KMeanModel无法计算解释的方差以绘制肘曲线,以建立最佳簇数。
但是在this示例中,用户似乎具有computeCost()
功能。这个功能来自哪里?我的计划没有成功。
我正在使用Spark 1.6。提前谢谢!
答案 0 :(得分:1)
我在pyspark中遇到了与 computcost 方法相同的问题。
在应用kmeans后,您可以使用 mahalanobis distance或WSSE ,而不是使用computecost。
计算你必须编写代码并获得代码的距离 各种结果你可以绘制图形来查看拐点 最佳聚类数。
Anomaly Detection Using PySpark这个用例让我看了一下。