如果我正确理解this,则会显示一组对象(它们是要素数组),我们需要将其拆分为2个子集。为此,我们将一些特征x j 与阈值t m 进行比较(t m 是m节点处的阈值)。我们使用杂质函数H()来找到分割对象的最佳方法。但是我们如何选择t m 的值以及哪些特征应该与阈值进行比较?我的意思是,有无数种方法可以选择t m ,所以我们不能只为每种可能性计算H()函数。
答案 0 :(得分:1)
在这些slides的第18页中,引入了两种方法来选择数字属性X的分割阈值。
方法1:
方法2:
假设X是一个实值变量
将IG(Y | X:t)定义为H(Y)-H(Y | X:t)
定义H(Y | X:t)= H(Y | X
然后定义IG ^ *(Y | X)= max_t IG(Y | X:t)
对于每个实值属性,请使用IG *(Y | X)来评估作为拆分的适用性
注意,可能会在一个属性上多次拆分, 具有不同的阈值
答案 1 :(得分:0)
实际上没有多少种方法可以选择t m 。给定合理的阈值范围,简单的实现可以迭代它们,评估H()和特征分割,这将导致最佳分割,因为将在决策树中为该分割选择杂质测量。