mllib如何为内部不平衡数据集加权类?

时间:2019-05-06 11:57:43

标签: pyspark apache-spark-mllib

我有一个数据框,其中有 1%的肯定类(1)和99%否定的(0's),并且我正在Pyspark中进行Logistic回归。我骑着here来处理不平衡的数据集,解决方案是添加一个 weightCol ,正如链接中提供的答案中所说的那样,以便告诉模型更多地关注1,因为更少。

我已经尝试过了,并且效果很好,但是我不知道mllib如何在内部平衡数据。有人有线索吗?我不喜欢无法理解的“黑匣子”。

1 个答案:

答案 0 :(得分:0)

它从Spark documentation说起

  

我们实施了两种算法来解决逻辑回归:小批量梯度下降和L-BFGS。我们建议在小批量梯度下降时使用L-BFGS,以加快收敛速度​​。

您可以检查LBFGS.scala,以查看优化算法如何在每次迭代后更新权重。