我使用Spark 1.5.0 MLlib Random Forest算法(Scala代码)来做两类分类。由于我使用的数据集非常不平衡,因此大多数类以10%的采样率进行下采样。</ p>
是否可以在Spark随机森林培训中使用采样权重(本例中为10)?我没有在随机森林中trainClassifier()
的输入参数中看到权重。
答案 0 :(得分:1)
Spark 1.5中完全没有,Spark 1.6中只有部分(Logistic / LinearRegression)
https://issues.apache.org/jira/browse/SPARK-7685
这里是追踪所有子任务的伞JIRA