决策树解释(泰坦尼克号数据)

时间:2017-02-09 18:31:37

标签: machine-learning decision-tree interpretation

我对decision trees相当陌生,在我向下移动分支时遇到一些麻烦。关于在R上绘制的情节,我有几个问题。响应变量是SurvivedYes / No),这将取决于年龄,票价,兄弟姐妹的数量和我使用Kaggle的Titanic数据集附上决策树的父母数量。

  1. 绿/蓝的不同颜色是什么意思?
  2. 如何解释叶节点?
  3. 我知道最顶级节点的存在率为38%存活,62%存在 没有生存,100%的人口都在那个桶里。如果我搬家 在右边......我怎么解释Bucket#3?如果我继续前进, 铲斗#6?等等...
  4. Titanic Decision Tree

1 个答案:

答案 0 :(得分:0)

1)根据与节点对应的多数类对节点进行着色。具有多数类标签no(未存活)的节点为绿色,否则为蓝色(yes或幸存)。

2)让我们解释底部最左边的叶子节点。与该节点对应的数据点的83%具有类标签no17%具有类标签yes。此节点包含整个数据集中的62%个数据点。

3)Bucket#3可以被类似地解释:对应于该节点的数据点的26%具有类标签no74%具有类标签yes。此节点包含整个数据集中的35%个数据点。如果计算节点#2和#3的no标签的加权比例,您将获得0.65*0.81+0.35*0.26=0.6175~0.62,这是根节点中包含标签{{1}的数据的比例}。