我有xgboost
模型,该模型是在纯Python
上训练的,并转换为pmml
格式。现在,我需要在PySpark
脚本中使用此模型,但是由于想法不足,我如何实现它。是否存在允许在pmml
中导入Python
模型并将其用于预测的方法?感谢您的任何建议。
BR,
弗拉基米尔
答案 0 :(得分:3)
Spark不支持直接从PMML导入。虽然我还没有遇到pyspark PMML导入器,但是有一个用于Java(https://github.com/jpmml/jpmml-evaluator-spark)的导入器。您可以做的是包装Java(或Scala),以便可以从python访问它(例如,参见http://aseigneurin.github.io/2016/09/01/spark-calling-scala-code-from-pyspark.html)。
答案 1 :(得分:0)
您可以使用PyPMML-Spark在PySpark脚本中导入PMML,例如:
from pypmml_spark import ScoreModel
model = ScoreModel.fromFile('the/pmml/file/path')
score_df = model.transform(df)