可以在Spark MLlib随机森林培训中使用样品重量吗?

时间:2016-03-11 20:35:31

标签: scala apache-spark random-forest apache-spark-mllib

我使用Spark 1.5.0 MLlib Random Forest算法(Scala代码)来做两类分类。由于我使用的数据集非常不平衡,因此大多数类以10%的采样率进行下采样。<​​/ p>

是否可以在Spark随机森林培训中使用采样权重(本例中为10)?我没有在随机森林中trainClassifier()的输入参数中看到权重。

1 个答案:

答案 0 :(得分:1)

Spark 1.5中完全没有,Spark 1.6中只有部分(Logistic / LinearRegression)

https://issues.apache.org/jira/browse/SPARK-7685

这里是追踪所有子任务的伞JIRA

https://issues.apache.org/jira/browse/SPARK-9610