应用错误收集

如何使用Spark决策树调整分类阈值

时间：2016-09-07 00:26:55

标签： apache-spark apache-spark-mllib decision-tree

我正在使用Spark 2.0和新的spark.ml。包。有没有办法调整分类阈值，以减少误报的数量。如果重要的话我也在使用CrossValidator。

我看到RandomForestClassifier和DecisionTreeClassifier都输出了一个概率列（我可以手动使用，但GBTClassifier没有。

1 个答案:

答案 0 :(得分：2)

听起来您可能正在寻找thresholds参数：

final val thresholds: DoubleArrayParam

Param for Thresholds在多类分类中调整概率   预测每个班级。数组的长度必须等于数字   类，值> = 0.预测具有最大值p / t的类，   其中p是该类的原始概率，t是该类＆＃39;   阈值。

您需要在分类器上调用setThresholds(value: Array[Double])来设置它。