应用错误收集

我正在使用套索运行Spark Logistic回归，并且需要20到30分钟才能运行。是因为求解器吗？

在没有套索的情况下运行它，这花费了2-4分钟。通用逻辑回归也需要2-4分钟。

数据大约有几百万行和20-30列。

这可能是使用的不良优化器吗？我认为R / Scikit中的相同问题更快。

RegParam=.0115
from pyspark.ml.classification import LogisticRegression
lr = LogisticRegression(maxIter=1000,fitIntercept=True)
lr.setStandardization(True)
lr.setRegParam(RegParam)
lr.setTol(tolerance)
lr.setElasticNetParam(1.0)
lrModel = lr.fit(df)

Spark Logistic回归套索运行非常缓慢

0 个答案: