我们正在使用spark ML进行物流回归。在1GB输入数据的spark中执行代码时,当代码进入后退回归时,它会创建大量的阶段,并且在每个阶段需要大约2.8 GB的输入,这导致总输入达到大约700 GB。下面是调用logistic回归spark ml api:
的示例代码var lRModel: LogisticRegressionModel = null
try {
var logisticRegression = new LogisticRegression()
//logisticRegression.setMaxIter(10)
lRModel = logisticRegression.fit(logisticRegressionInputDF)
} catch {
case ex:Exception => {
throw new ModellingUJTransformationException("Exception while fitting logistic regression model on a LR input dataframe --"+ex.getMessage, ex)
}
}
此外,在该阶段找到了DAG: