PySpark mllib p值进行逻辑回归

时间:2018-11-07 17:21:34

标签: apache-spark apache-spark-mllib logistic-regression apache-spark-ml

我目前正在使用ML-Lib软件包(Spark版本2.1)在PySpark中运行逻辑回归。为了理解这些系数并检查其统计意义,我想研究相应的p值。

是否可以使用ML-Lib软件包获取p值?

1 个答案:

答案 0 :(得分:2)

您可以使用ML库中的广义线性回归包来接收p值以进行逻辑回归:

from pyspark.ml.regression import GeneralizedLinearRegression
glr = GeneralizedLinearRegression(family="binomial", link="logit", maxIter=10, 
regParam=0.0)
model = glr.fit(dataset)
summary = model.summary
print("Coefficient Standard Errors: " + str(summary.coefficientStandardErrors))
print("T Values: " + str(summary.tValues))
print("P Values: " + str(summary.pValues))

您可以在这里找到详细的说明:https://spark.apache.org/docs/2.2.0/ml-classification-regression.html#generalized-linear-regression

请记住数据框的特征值(以及矩阵可逆性的条件)以接收标准误差(并因此而获得P值),因为在这种情况下,包装将为您提供误差。