如何导出pyspark mlib机器学习模型并部署为Web服务?

时间:2017-04-27 14:45:30

标签: web-services rest pyspark apache-spark-mllib

我使用spark mlib进行线性回归模型构建。现在我想导出模型并通过Web服务使用模型。 我正在研究PMML无法找到合适的来源,因为我该如何使用它。我是否需要安装任何特定的PMML库或如何完成。

同样的模型我尝试使用joblib导出为pickle文件,并通过flask将其部署为Web服务。我想为Spark mlib开发的模型做类似的事情。

任何人都可以帮助我或指出我正确的来源吗?

1 个答案:

答案 0 :(得分:0)

对于使用PMML的简单REST Web服务,您可以查看https://github.com/openscoring/openscoring。它使用JAVA。对于Python + Flask我不知道,但PMML只不过是一个需要评估的XML文件。所以你可以尝试编写自己的Python逻辑来完成它。我也发现了这个https://github.com/maxkferg/pmml-scoring-engine,但它没有太多的星星。

值得注意的是,PMML的使用非常有限。并非所有型号都支持,例如ALS。另一种方法是通过其二进制文件部署PySpark应用程序。我在博客上写了here。我们使用Cloud Foundry部署它,但如果您需要公共端点,您也可以使用buildpack将其部署在Heroku上。希望这会有所帮助。