应用错误收集

可以在Spark MLlib随机森林培训中使用样品重量吗？

时间：2016-03-11 20:35:31

标签： scala apache-spark random-forest apache-spark-mllib

我使用Spark 1.5.0 MLlib Random Forest算法（Scala代码）来做两类分类。由于我使用的数据集非常不平衡，因此大多数类以10％的采样率进行下采样。</ p>

是否可以在Spark随机森林培训中使用采样权重（本例中为10）？我没有在随机森林中trainClassifier()的输入参数中看到权重。

1 个答案:

答案 0 :(得分：1)

Spark 1.5中完全没有，Spark 1.6中只有部分（Logistic / LinearRegression）

https://issues.apache.org/jira/browse/SPARK-7685

这里是追踪所有子任务的伞JIRA

https://issues.apache.org/jira/browse/SPARK-9610