应用错误收集

如何在Spark中随机森林中训练数据时设置截止值

时间：2015-06-01 08:47:07

标签： apache-spark random-forest apache-spark-mllib

我正在使用Spark Mlib来训练用于使用随机森林算法进行分类的数据。 MLib提供了一个 RandomForest 类，它具有执行所需的 trainClassifier 方法。

我可以在训练数据集时设置阈值，类似于R＆lt; randomForest 包中提供的 cutoff 选项

http://cran.r-project.org/web/packages/randomForest/randomForest.pdf

我发现 RandomForest 类MLib提供的选项只能传递树的数量，杂质，类数等，但没有像阈值或切割关闭选项可用。可以通过任何方式完成。

1 个答案:

答案 0 :(得分：0)

简短版本不是，如果我们查看RandomForestClassifier.scala您可以看到它总是只选择最大值。你可以覆盖预测功能，但它不是超级干净。我添加了一个jira来跟踪添加此内容。