`graphviz`在决策树的每个节点内呈现的值是什么意思?

时间:2017-11-27 03:31:58

标签: python scipy scikit-learn pygraphviz

enter image description here

对于上面的图像使用来自scipygraphviz的AdaBoostClassifier库,我能够创建这个子树视觉,我需要帮助解释每个节点中的值?例如,&#34; gini&#34;意思? &#34;样品&#34;的重要性是什么?和&#34;价值&#34;字段?属性F5 <= 0.5?

是什么意思

这是我的代码(我在jupyter笔记本中完成了这一切):

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
%matplotlib inline

f = open('dtree-data.txt')
d = dict()
for i in range(1,9):
    key = 'F' + str(i)
    d[key] = []
d['RES'] = []
for line in f:
    values = [(True if x == 'True' else False) for x in line.split()[:8]]
    result = line.split()[8]
    d['RES'].append(result)
    for i in range(1, 9):
        key = 'F' + str(i)
        d[key].append(values[i-1])
df = pd.DataFrame(data=d, columns=['F1','F2','F3','F4','F5','F6','F7','F8','RES'])

from sklearn.model_selection import train_test_split

X = df.drop('RES', axis=1)
y = df['RES']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

from sklearn.ensemble import AdaBoostClassifier
ada = AdaBoostClassifier()
ada.fit(X_train, y_train)

from IPython.display import Image
from sklearn.externals.six import StringIO
from sklearn.tree import export_graphviz
import pydot

# https://stackoverflow.com/questions/46192063/not-fitted-error-when-using-sklearns-graphviz 

sub_tree = ada.estimators_[0]
dot_data = StringIO()
features = list(df.columns[1:])
export_graphviz(sub_tree, out_file=dot_data,feature_names=features,filled=True,rounded=True)
graph = pydot.graph_from_dot_data(dot_data.getvalue())  
Image(graph[0].create_png())

注意:可能需要安装外部软件包才能在本地(显然)查看数据

以下是数据文件的链接: https://cs.rit.edu/~jro/courses/intelSys/dtree-data

1 个答案:

答案 0 :(得分:4)

您会看到一个决策树。这是一个二叉树,其中每个节点代表一部分数据。不是叶子的每个节点将其部分数据分成两个子部分。根节点包含所有数据(来自训练集)。此外,这是一个分类树。它预测了类概率 - 节点值。

根节点:

  • samples = 134表示节点“包含”134个样本。因为它是根节点,这意味着树被训练了134个样本。
  • value = [0.373, 0.627]是类概率。大约1/3的样本属于A类,2/3属于B类。
  • gini = 0.468是节点的gini impurity。它描述了这些课程的混合程度。
  • F5 <= 0.5数据的列名是什么?对。这意味着节点被拆分,以便特征F5低于0.5的所有样本都转到左子节点,特征高于0.5的样本转到右边的子节点。

叶子节点:

  • 这些节点不会进一步拆分,因此不需要F <= something字段。
  • samples = 90 / 44总计134.左边的孩子有90个样本,右边的孩子有44个样本。
  • values = [0.104, 0.567] / [0.269, 0.06]是孩子们的班级概率。左儿童中的大多数样本属于B类(0.56对0.10),右儿童的大多数样本属于A类(0.27 v 0.06)。
  • gini = 0.263 / 0.298是子节点中剩余的杂质。它们低于父节点,这意味着分割改善了类之间的可分离性,但仍然存在一些不确定性。