如何使用Spark决策树调整分类阈值

时间:2016-09-07 00:26:55

标签: apache-spark apache-spark-mllib decision-tree

我正在使用Spark 2.0和新的spark.ml。包。 有没有办法调整分类阈值,以减少误报的数量。 如果重要的话我也在使用CrossValidator。

我看到RandomForestClassifier和DecisionTreeClassifier都输出了一个概率列(我可以手动使用,但GBTClassifier没有。

1 个答案:

答案 0 :(得分:2)

听起来您可能正在寻找thresholds参数:

  

final val thresholds: DoubleArrayParam

     

Param for Thresholds在多类分类中调整概率   预测每个班级。数组的长度必须等于数字   类,值> = 0.预测具有最大值p / t的类,   其中p是该类的原始概率,t是该类'   阈值。

您需要在分类器上调用setThresholds(value: Array[Double])来设置它。