如何在PySpark脚本中使用pmml模型?

时间:2018-10-23 14:22:21

标签: python apache-spark pyspark pmml

我有xgboost模型,该模型是在纯Python上训练的,并转换为pmml格式。现在,我需要在PySpark脚本中使用此模型,但是由于想法不足,我如何实现它。是否存在允许在pmml中导入Python模型并将其用于预测的方法?感谢您的任何建议。

BR,
弗拉基米尔

2 个答案:

答案 0 :(得分:3)

Spark不支持直接从PMML导入。虽然我还没有遇到pyspark PMML导入器,但是有一个用于Java(https://github.com/jpmml/jpmml-evaluator-spark)的导入器。您可以做的是包装Java(或Scala),以便可以从python访问它(例如,参见http://aseigneurin.github.io/2016/09/01/spark-calling-scala-code-from-pyspark.html)。

答案 1 :(得分:0)

您可以使用PyPMML-Spark在PySpark脚本中导入PMML,例如:

from pypmml_spark import ScoreModel

model = ScoreModel.fromFile('the/pmml/file/path')
score_df = model.transform(df)