我正在使用Spark 2.0和新的spark.ml。包。 有没有办法调整分类阈值,以减少误报的数量。 如果重要的话我也在使用CrossValidator。
我看到RandomForestClassifier和DecisionTreeClassifier都输出了一个概率列(我可以手动使用,但GBTClassifier没有。
答案 0 :(得分:2)
听起来您可能正在寻找thresholds
参数:
final val thresholds: DoubleArrayParam
Param for Thresholds在多类分类中调整概率 预测每个班级。数组的长度必须等于数字 类,值> = 0.预测具有最大值p / t的类, 其中p是该类的原始概率,t是该类' 阈值。
您需要在分类器上调用setThresholds(value: Array[Double])
来设置它。