我可以在pyspark中提取Logistic回归系数的显着值

时间:2016-12-05 18:13:04

标签: apache-spark machine-learning pyspark logistic-regression significance

在我们根据训练数据拟合逻辑回归模型后,有没有办法获得我们收到的每个系数的显着性水平?

我试图找到一种方法而无法弄清楚自己。

我想如果我运行chi sq test,我可能会得到每个功能的显着性水平,但首先不确定我是否可以对所有功能一起运行测试,其次我有数字数据值,所以如果它会给我正确的结果与否也是一个问题。

现在我正在使用statsmodel和scikit学习运行建模部分,但我当然想知道如何从pySparl ML或MLLib本身获得这些结果

如果有人能说清楚,那会很有帮助

1 个答案:

答案 0 :(得分:3)

我只使用mllib,我认为当你训练模型时你可以使用toPMML方法导出你的模型un PMML格式(xml文件),然后你可以解析xml文件来获取特征权重,这里是一个例子

https://spark.apache.org/docs/2.0.2/mllib-pmml-model-export.html

希望有所帮助