决策树。选择分割对象的阈值

时间:2017-08-04 18:38:58

标签: machine-learning decision-tree

如果我正确理解this,则会显示一组对象(它们是要素数组),我们需要将其拆分为2个子集。为此,我们将一些特征x j 与阈值t m 进行比较(t m 是m节点处的阈值)。我们使用杂质函数H()来找到分割对象的最佳方法。但是我们如何选择t m 的值以及哪些特征应该与阈值进行比较?我的意思是,有无数种方法可以选择t m ,所以我们不能只为每种可能性计算H()函数。

2 个答案:

答案 0 :(得分:1)

在这些slides的第18页中,引入了两种方法来选择数字属性X的分割阈值。

方法1:

  • 根据X将数据排序为{x_1,...,x_m}
  • 考虑x_i +(x_ {i + 1}-x_i)/ 2形式的分割点

方法2:

假设X是一个实值变量

  • 将IG(Y | X:t)定义为H(Y)-H(Y | X:t)

  • 定义H(Y | X:t)= H(Y | X = t)P(X> = t)

    • IG(Y | X:t)是预测所有Y的信息增益 知道X是否大于或小于t
  • 然后定义IG ^ *(Y | X)= max_t IG(Y | X:t)

  • 对于每个实值属性,请使用IG *(Y | X)来评估作为拆分的适用性

注意,可能会在一个属性上多次拆分, 具有不同的阈值

答案 1 :(得分:0)

实际上没有多少种方法可以选择t m 。给定合理的阈值范围,简单的实现可以迭代它们,评估H()和特征分割,这将导致最佳分割,因为将在决策树中为该分割选择杂质测量。