如何计算Spark的Logistic回归中的p值?

时间:2016-04-29 17:19:42

标签: apache-spark apache-spark-mllib data-science

我们正在使用LogisticRegressionWithSGD,并想知道我们的哪些变量预测以及具有什么重要性。一些统计软件包(StatsModels)返回每个术语的p值。低p值(<0.05)表示对模型的有意义的添加。

我们如何从LogisticRegressionWithSGD模型中获取/计算p值?

对此有任何帮助表示赞赏。

1 个答案:

答案 0 :(得分:0)

这是一个非常古老的问题,但对于迟到的人来说,一些指导可能很有价值。

LogisticRegressionWithSGD为deprecated。在该版本中,模型本身没有提供真正的“摘要”信息。如果您无法访问最新版本的pyspark,则必须自己计算每个功能的P值。 Here is a nice intro to doing that by "hand".

如果您可以获取当前版本的pyspark,那么您将需要使用: pyspark.mllib.classification.LogisticRegressionWithLBFGS (docs here