我成功地在python中使用sklearn库并且非常享受它。
我能够使用以下代码创建和拟合DecisionTreeClassifierType的模型:
tidyr::spread
然后,我可以使用该模型来预测新输入的类别,如下所示:
group_by(p_ash_r_100a, SMPL_TIME, EVENT) %>%
summarise(smpl_sum = sum(SMPL_CNT)) %>%
spread(EVENT, smpl_sum, fill = 0) %>%
gather(EVENT, smpl_sum, CPU, `db file sequential read`,
`direct path write`,
`Log archive I/O`) %>%
ggplot(aes(x = SMPL_TIME, y = smpl_sum, fill = EVENT)) +
geom_area()
上面的行将返回0或1,具体取决于模型预测此数据将具有哪个类。我想知道是否有某种方法可以获得模型对预测的置信/概率?
因此,如果它将输入的分类预测为1,那么概率/置信度将是0.8的小数或80%的百分比。关于这是否与sklearn的DecisionTreeClassifier兼容/可能的任何想法?
答案 0 :(得分:2)
这是在sklearn.tree.DecisionTreeClassifier.predict_proba
:
预测输入样本X的类概率。 预测的类概率是叶子中同一类的样本的分数。