如何在Spark中随机森林中训练数据时设置截止值

时间:2015-06-01 08:47:07

标签: apache-spark random-forest apache-spark-mllib

我正在使用Spark Mlib来训练用于使用随机森林算法进行分类的数据。 MLib提供了一个 RandomForest 类,它具有执行所需的 trainClassifier 方法。

我可以在训练数据集时设置阈值,类似于R< randomForest 包中提供的 cutoff 选项

http://cran.r-project.org/web/packages/randomForest/randomForest.pdf

我发现 RandomForest 类MLib提供的选项只能传递树的数量,杂质,类数等,但没有像阈值切割关闭选项可用。可以通过任何方式完成。

1 个答案:

答案 0 :(得分:0)

简短版本不是,如果我们查看RandomForestClassifier.scala您可以看到它总是只选择最大值。你可以覆盖预测功能,但它不是超级干净。我添加了一个jira来跟踪添加此内容。