应用错误收集

决策树。选择分割对象的阈值

时间：2017-08-04 18:38:58

标签： machine-learning decision-tree

如果我正确理解this，则会显示一组对象（它们是要素数组），我们需要将其拆分为2个子集。为此，我们将一些特征x _j与阈值t _m进行比较（t _m是m节点处的阈值）。我们使用杂质函数H（）来找到分割对象的最佳方法。但是我们如何选择t _m的值以及哪些特征应该与阈值进行比较？我的意思是，有无数种方法可以选择t _m，所以我们不能只为每种可能性计算H（）函数。

2 个答案:

答案 0 :(得分：1)

在这些slides的第18页中，引入了两种方法来选择数字属性X的分割阈值。

方法1：

根据X将数据排序为{x_1，...，x_m}
考虑x_i +（x_ {i + 1}-x_i）/ 2形式的分割点

方法2：

假设X是一个实值变量

将IG（Y | X：t）定义为H（Y）-H（Y | X：t）
定义H（Y | X：t）= H（Y | X = t）P（X> = t）
- IG（Y | X：t）是预测所有Y的信息增益知道X是否大于或小于t
然后定义IG ^ *（Y | X）= max_t IG（Y | X：t）
对于每个实值属性，请使用IG *（Y | X）来评估作为拆分的适用性

注意，可能会在一个属性上多次拆分，具有不同的阈值

答案 1 :(得分：0)

实际上没有多少种方法可以选择t _m。给定合理的阈值范围，简单的实现可以迭代它们，评估H（）和特征分割，这将导致最佳分割，因为将在决策树中为该分割选择杂质测量。