我已经在互联网上搜索了一段时间,以了解rpart在变量重要性输出上分配给变量的数字“排名”统计数据。
据我所知,这个数字增加到了100但究竟是什么,它叫什么,它代表什么?
我发现在过去
中将许多分类列排序为连续目标变量非常有用答案 0 :(得分:1)
单独计算每个变量,并将该值计算为杂质减少量的总和,当变量显示为主要分裂时和作为替代品出现时,它都计算。然后将其转换为百分比评分,最高值为100并且连续成比例直到较低值。 您可以在此处阅读有关varialbe重要性含义的更好描述: https://cran.r-project.org/web/packages/rpart/vignettes/longintro.pdf 和布莱曼(分类和回归树)一书。
希望这有帮助!