我正在尝试使用rpart
包绘制决策树,并且确实与其输出相混淆。值得注意的是,在第三节点,如何从城市生产农业和采矿类?
我认为应该是农业和城市而不是农业和采矿业。 这是我的代码
df<-read.csv("https://raw.githubusercontent.com/tuyenhavan/Statistics/Dataset/Landsat_Data.csv")
library(rpart)
library(rpart.plot)
set.seed(123)
dt<-rpart(Land_cover~., data=df)
rpart.plot(dt,cex=0.35)
请帮我解释一下。谢谢
答案 0 :(得分:0)
节点显示所有响应类别的相对频率以及多数表决,即最常见的类别。如果存在关系,那么最常见的类别中的第一个将显示为多数投票(当然,这有点任意选择)。
因此,在根节点中,所有类别都以20%的相同频率出现,而#34;农业&#34;显示为多数投票,因为它按字典顺序排列第一类。
类似地,在节点3中(对于Band1&gt; = 0.03599656)&#34; Urban&#34;和&#34; Water&#34;仍然是最常见的类别(200观察= 24.969%)。因此&#34; Urban&#34;被列为多数票。