我正在使用Spark Mlib来训练用于使用随机森林算法进行分类的数据。 MLib提供了一个 RandomForest 类,它具有执行所需的 trainClassifier 方法。
我可以在训练数据集时设置阈值,类似于R< randomForest 包中提供的 cutoff 选项
http://cran.r-project.org/web/packages/randomForest/randomForest.pdf
我发现 RandomForest 类MLib提供的选项只能传递树的数量,杂质,类数等,但没有像阈值或切割关闭选项可用。可以通过任何方式完成。
答案 0 :(得分:0)
简短版本不是,如果我们查看RandomForestClassifier.scala
您可以看到它总是只选择最大值。你可以覆盖预测功能,但它不是超级干净。我添加了一个jira来跟踪添加此内容。