Question

我成功地在python中使用sklearn库并且非常享受它。

我能够使用以下代码创建和拟合DecisionTreeClassifierType的模型：

tidyr::spread

然后，我可以使用该模型来预测新输入的类别，如下所示：

group_by(p_ash_r_100a, SMPL_TIME, EVENT) %>%
  summarise(smpl_sum = sum(SMPL_CNT)) %>%
  spread(EVENT, smpl_sum, fill = 0) %>% 
  gather(EVENT, smpl_sum, CPU, `db file sequential read`, 
         `direct path write`,
         `Log archive I/O`) %>%
  ggplot(aes(x = SMPL_TIME, y = smpl_sum, fill = EVENT)) +
  geom_area()

上面的行将返回0或1，具体取决于模型预测此数据将具有哪个类。我想知道是否有某种方法可以获得模型对预测的置信/概率？

因此，如果它将输入的分类预测为1，那么概率/置信度将是0.8的小数或80％的百分比。关于这是否与sklearn的DecisionTreeClassifier兼容/可能的任何想法？

Answer 1

这是在sklearn.tree.DecisionTreeClassifier.predict_proba：

中完成的

预测输入样本X的类概率。预测的类概率是叶子中同一类的样本的分数。

在sklearn中有没有办法测试一个预测的可信度，使我成为一个DecisionTreeClassifier模型？

1 个答案: