我使用sklearn创建了一个决策树。
from sklearn import tree
clf = tree.DecisionTreeClassifier(max_depth=3)
clf = clf.fit(X, Y)
数据框X中的参数为 - 'Company size'
,'Industry_other'
,'Account size'
,'Country'
和'Use case 1'
。
在尝试使用export_graphviz
:
获取类似节点的原因是什么?我该如何阅读这棵树?
答案 0 :(得分:1)
为简化说明,我将用字母解释。你的树看起来像这样:
A -> B
|
\-> C -> D -> F
| \-> G
|
\-> E -> H
\-> I
A
是您的 root 节点,而D
和E
您说的节点是类似节点。
在您的图表中,节点A
分为两部分,B
和C
。使用Account size < 19969
的数据样本转到C,否则转到B
。
在到达C
的示例中,Industry other <= 1.5
的示例转到E
,其他转到D
。在此,E
和D
看起来完全相同,因为他们已经学习了相同的规则,但该规则适用于不同的数据样本。
这是从到达E
的样本中,company size < 1.5
的示例转到I
而其他转到H
,类似的内容适用于{{1} }}
希望它更清楚,我并没有让你更加困惑。
基本上,他们已经学习了相同的规则,但将其应用于不同的样本。换句话说,D
和D
都知道在两组中分离到达它们的样本的最佳规则是相同的。但是,到达它们的样本具有不同的性质(准确地说不同E
)。
也可以通过某种方式理解为Industry_other
有助于区分样本而不管其Company_size
。