如何在Apache Spark中保存和加载MLLib模型?

时间:2015-12-14 15:13:34

标签: python apache-spark pyspark apache-spark-mllib

我在Apache Spark中训练了一个分类模型(使用pyspark)。我将模型存储在一个对象LogisticRegressionModel中。现在,我想对新数据做出预测。我想存储模型,并将其读回新程序以进行预测。知道如何存储模型吗?我想的可能是泡菜,但我是python和Spark的新手,所以我想听听社区的想法。

1 个答案:

答案 0 :(得分:7)

您可以使用mllib # let lrm be a LogisticRegression Model lrm.save(sc, "lrm_model.model") 模型保存模型。

sameModel = LogisticRegressionModel.load(sc, "lrm_model.model")

存储后,您可以将其加载到另一个应用程序中。

{{1}}

正如@ zero323之前所述,还有另一种方法可以实现这一点,并使用save method

  

是由Data Mining Group开发的基于XML的文件格式,为应用程序提供了一种描述和交换数据挖掘和机器学习算法生成的模型的方法。