我正在使用套索运行Spark Logistic回归,并且需要20到30分钟才能运行。是因为求解器吗?
在没有套索的情况下运行它,这花费了2-4分钟。通用逻辑回归也需要2-4分钟。
数据大约有几百万行和20-30列。
这可能是使用的不良优化器吗?我认为R / Scikit中的相同问题更快。
RegParam=.0115
from pyspark.ml.classification import LogisticRegression
lr = LogisticRegression(maxIter=1000,fitIntercept=True)
lr.setStandardization(True)
lr.setRegParam(RegParam)
lr.setTol(tolerance)
lr.setElasticNetParam(1.0)
lrModel = lr.fit(df)