Spark Logistic回归套索运行非常缓慢

时间:2019-05-29 20:12:23

标签: apache-spark pyspark logistic-regression lasso

我正在使用套索运行Spark Logistic回归,并且需要20到30分钟才能运行。是因为求解器吗?

在没有套索的情况下运行它,这花费了2-4分钟。通用逻辑回归也需要2-4分钟。

数据大约有几百万行和20-30列。

这可能是使用的不良优化器吗?我认为R / Scikit中的相同问题更快。

RegParam=.0115
from pyspark.ml.classification import LogisticRegression
lr = LogisticRegression(maxIter=1000,fitIntercept=True)
lr.setStandardization(True)
lr.setRegParam(RegParam)
lr.setTol(tolerance)
lr.setElasticNetParam(1.0)
lrModel = lr.fit(df)

0 个答案:

没有答案