如何使用rpart解释异常的决策树输出(多类)

时间:2017-09-16 23:51:17

标签: decision-tree explain rpart

我正在尝试使用rpart包绘制决策树,并且确实与其输出相混淆。值得注意的是,在第三节点,如何从城市生产农业和采矿类?

我认为应该是农业和城市而不是农业和采矿业。 这是我的代码

df<-read.csv("https://raw.githubusercontent.com/tuyenhavan/Statistics/Dataset/Landsat_Data.csv")

library(rpart)

library(rpart.plot)
set.seed(123)

dt<-rpart(Land_cover~., data=df)

rpart.plot(dt,cex=0.35)

请帮我解释一下。谢谢

1 个答案:

答案 0 :(得分:0)

节点显示所有响应类别的相对频率以及多数表决,即最常见的类别。如果存在关系,那么最常见的类别中的第一个将显示为多数投票(当然,这有点任意选择)。

因此,在根节点中,所有类别都以20%的相同频率出现,而#34;农业&#34;显示为多数投票,因为它按字典顺序排列第一类。

类似地,在节点3中(对于Band1&gt; = 0.03599656)&#34; Urban&#34;和&#34; Water&#34;仍然是最常见的类别(200观察= 24.969%)。因此&#34; Urban&#34;被列为多数票。