C4.5选择连续属性的分割点(阈值)

时间:2015-03-07 19:36:50

标签: algorithm split decision-tree threshold c4.5

使用“打高尔夫球”或“打球”数据(在下方列出),选择我们查看Outlook,温度,湿度和风的根节点,看看哪个具有最高的GainRatio。

现在,Outlook将被选为具有最高GainRatio的属性。但是,我很困惑湿度(连续属性)选择 GainRatio = 0.1087 的分裂点 80 ,而 65 有更高 GainRatio = 0.1285 即可。分裂点80确实具有更高的增益,但不具有GainRatio。

我已经看到文献大致上说“选择一个连续属性的分裂点来获得最多的收益”......这对我来说似乎违反了分裂点是基于增益的单独使用,与将您选择最高GainRatio的所有属性作为下一个决策节点进行比较时相反。

我希望在这里获得一些清晰度。

感谢。

计算如下:

OUTLOOK:
增益= 0.2467
SplitInfo = 1.5774
增益比= 0.1564

温度:
增益= 0.0292
SplitInfo = 1.5566
增益比= 0.0187

湿度:
可能的分裂点= {65,70,75,78,80,85,90,95,96}

分裂65:
增益= 0.0477
SplitInfo = 0.3712
增益比= 0.1285

分裂80:
增益= 0.1022
SplitInfo = 0.9402
增益比= 0.1087

WIND:
增益= 0.0481
SplitInfo = 0.9852
增益比= 0.0488

DATA:

Outlook  Temperature  Humidity  Wind    Play
--------------------------------------------
sun        hot          85      low     no
sun        hot          90      high    no
overcast   hot          78      low     yes
rain       sweet        96      low     yes
rain       cold         80      low     yes
rain       cold         70      high    no
overcast   cold         65      high    yes
sun        sweet        95      low     no
sun        cold         70      low     yes
rain       sweet        80      low     yes
sun        sweet        70      high    yes
overcast   sweet        90      high    yes
overcast   hot          75      low     yes
rain       sweet        80      high    no

1 个答案:

答案 0 :(得分:0)

信息增益比用于通过在选择属性时考虑分支的数量和大小来减少对具有大量值的属性的偏差。在这里,我们已经选择了属性。因此,我们应该尝试最大化信息增益而不是信息增益比。