应用错误收集

Logistic回归如何在Spark中并行化？

时间：2017-07-26 08:57:29

标签： scala apache-spark machine-learning apache-spark-mllib

我想对用于在ML库中并行化逻辑回归的方法有一些了解，我已经尝试检查源代码，但我不了解该过程。

1 个答案:

答案 0 :(得分：2)

Spark使用所谓的迷你批量梯度下降进行回归：

http://ruder.io/optimizing-gradient-descent/index.html#minibatchgradientdescent

简而言之，它的工作原理如下：

选择数据样本
计算样本每行的渐变
聚合渐变
返回第1步

Spark的实际优化代码来自以下行： https://github.com/apache/spark/blob/master/mllib/src/main/scala/org/apache/spark/mllib/optimization/GradientDescent.scala#L234