在sklearn中有没有办法测试一个预测的可信度,使我成为一个DecisionTreeClassifier模型?

时间:2017-04-13 02:56:37

标签: python machine-learning scipy scikit-learn

我成功地在python中使用sklearn库并且非常享受它。

我能够使用以下代码创建和拟合DecisionTreeClassifierType的模型:

tidyr::spread

然后,我可以使用该模型来预测新输入的类别,如下所示:

group_by(p_ash_r_100a, SMPL_TIME, EVENT) %>%
  summarise(smpl_sum = sum(SMPL_CNT)) %>%
  spread(EVENT, smpl_sum, fill = 0) %>% 
  gather(EVENT, smpl_sum, CPU, `db file sequential read`, 
         `direct path write`,
         `Log archive I/O`) %>%
  ggplot(aes(x = SMPL_TIME, y = smpl_sum, fill = EVENT)) +
  geom_area()

上面的行将返回0或1,具体取决于模型预测此数据将具有哪个类。我想知道是否有某种方法可以获得模型对预测的置信/概率?

因此,如果它将输入的分类预测为1,那么概率/置信度将是0.8的小数或80%的百分比。关于这是否与sklearn的DecisionTreeClassifier兼容/可能的任何想法?

1 个答案:

答案 0 :(得分:2)

这是在sklearn.tree.DecisionTreeClassifier.predict_proba

中完成的
  

预测输入样本X的类概率。   预测的类概率是叶子中同一类的样本的分数。