我对decision trees
相当陌生,在我向下移动分支时遇到一些麻烦。关于在R上绘制的情节,我有几个问题。响应变量是Survived
(Yes
/ No
),这将取决于年龄,票价,兄弟姐妹的数量和我使用Kaggle的Titanic
数据集附上决策树的父母数量。
答案 0 :(得分:0)
1)根据与节点对应的多数类对节点进行着色。具有多数类标签no
(未存活)的节点为绿色,否则为蓝色(yes
或幸存)。
2)让我们解释底部最左边的叶子节点。与该节点对应的数据点的83%
具有类标签no
,17%
具有类标签yes
。此节点包含整个数据集中的62%
个数据点。
3)Bucket#3可以被类似地解释:对应于该节点的数据点的26%
具有类标签no
而74%
具有类标签yes
。此节点包含整个数据集中的35%
个数据点。如果计算节点#2和#3的no
标签的加权比例,您将获得0.65*0.81+0.35*0.26=0.6175~0.62
,这是根节点中包含标签{{1}的数据的比例}。