我已经绘制了水决策树:
我在SO上关注了很多帖子,如果我错了,请纠正我,但是叶子上的值是相关性,级别是分类值的计数,树0表示创建的第一棵树。
现在我的问题是
1.我无法在分类值上找出“大于或等于”符号和“小于”符号。例如,如果我们在Z<10.032598
之后继续,那么我们在右边具有“大于或等于”的符号表示什么?另外,我们在左边带有NA
的“小于”符号是分类变量,但是“小于”分类变量甚至意味着什么?
2.如果我们从顶部(c
开始并向右走,我们的值为1,我理解这意味着c
具有1个相关性。但是,如果我们再下降1级到Z<10.032598
,则右侧的“大于或等于”符号再次表示1相关。是什么意思?
答案 0 :(得分:1)
如果要构建简单的决策树,则叶节点上的值是输出概率,而不是相关性,并且级别不是类别值的计数,因为您可以在树中以不同级别重复多个特征。级别取决于您训练模型时提供的深度。
大于或小于符号表示您必须去哪个方向。例如,在第1层,如果z>10.0325
比您右,但是如果比它小,则您在树中左。 NA
基本上表明,如果值小于阈值或为null,则向左走。您的模型正在考虑数值上的分类变量,H2O为您提供了使用categorical_encoding
进行更改的选项。由于数据为数字格式,因此将其解释为数字。
再次做出决策1
的原因是因为您的模型正在检查其他功能以验证结果。如果第一级失败并且模型不确定输出,它将检查第二级并执行相同的操作,并进一步深入到树,直到达到预测为止。