在Spark MLlib中,如何使用Python将BisectingKMeansModel保存到HDFS?

时间:2018-07-10 08:45:57

标签: pyspark apache-spark-mllib

在Spark MLlib中,pyspark中的BisectingKMeansModel没有保存/加载功能。 为什么? 如何使用Python将BisectingKMeans模型保存或加载到HDFS?

1 个答案:

答案 0 :(得分:0)

可能是您的Spark版本。对于平分,建议k_means高于2.1.0。

您可以在pyspark.ml.clustering.BisectingKMeans类上找到完整的示例,希望对您有所帮助:

https://spark.apache.org/docs/2.1.0/api/python/pyspark.ml.html#pyspark.ml.clustering.BisectingKMeans%20featuresCol=%22features%22,%20predictionCol=%22prediction%22

示例代码的最后一部分包括模型保存/加载:

model_path = temp_path + "/bkm_model"
model.save(model_path)
model2 = BisectingKMeansModel.load(model_path)

它也适用于hdfs,但是在保存模型之前请确保temp_path / bkm_model文件夹不存在,否则会出现错误:

(java.io.IOException: Path <temp_path>/bkm_model already exists)