Spark ML Logistic回归问题创建了大量阶段

时间:2017-04-27 11:11:41

标签: apache-spark logistics

我们正在使用spark ML进行物流回归。在1GB输入数据的spark中执行代码时,当代码进入后退回归时,它会创建大量的阶段,并且在每个阶段需要大约2.8 GB的输入,这导致总输入达到大约700 GB。下面是调用logistic回归spark ml api:

的示例代码
var lRModel: LogisticRegressionModel = null

try {
    var logisticRegression = new LogisticRegression()

    //logisticRegression.setMaxIter(10)

     lRModel = logisticRegression.fit(logisticRegressionInputDF)
    } catch {
      case ex:Exception => {
        throw new ModellingUJTransformationException("Exception while fitting  logistic regression model on a LR input dataframe --"+ex.getMessage, ex)
      }
    }

此外,在该阶段找到了DAG:

enter image description here

enter image description here

0 个答案:

没有答案