我是数据分析师。我想训练一个模型(例如randomforest),这个模型可以由Scala保存和加载。由于Scala和R都使用MLlib进行机器学习,Scala是否也可以加载训练并保存在SparkR中的模型?
我发现一篇文章说它不兼容: https://databricks.com/blog/2016/05/31/apache-spark-2-0-preview-machine-learning-model-persistence.html
但它是差不多一年前写的。 SparkR的最新甚至开发版本是否支持这种模型的交叉兼容性?
答案 0 :(得分:0)
代码:在Spark中保存并加载模型
val model = pipeline.fit(training)
// Now we can optionally save the fitted pipeline to disk
model.write.overwrite().save("/tmp/spark-logistic-regression-model")
// We can also save this unfit pipeline to disk
pipeline.write.overwrite().save("/tmp/unfit-lr-model")
// And load it back in during production
val sameModel = PipelineModel.load("/tmp/spark-logistic-regression-model")
详情请参阅
https://spark.apache.org/docs/latest/ml-pipeline.html#example-pipeline
希望这有助于!!! ...