使用“打高尔夫球”或“打球”数据(在下方列出),选择我们查看Outlook,温度,湿度和风的根节点,看看哪个具有最高的GainRatio。
现在,Outlook将被选为具有最高GainRatio的属性。但是,我很困惑湿度(连续属性)选择 GainRatio = 0.1087 的分裂点 80 ,而 65 有更高 GainRatio = 0.1285 即可。分裂点80确实具有更高的增益,但不具有GainRatio。
我已经看到文献大致上说“选择一个连续属性的分裂点来获得最多的收益”......这对我来说似乎违反了分裂点是基于增益的单独使用,与将您选择最高GainRatio的所有属性作为下一个决策节点进行比较时相反。
我希望在这里获得一些清晰度。
感谢。
计算如下:
OUTLOOK:
增益= 0.2467
SplitInfo = 1.5774
增益比= 0.1564
温度:
增益= 0.0292
SplitInfo = 1.5566
增益比= 0.0187
湿度:
可能的分裂点= {65,70,75,78,80,85,90,95,96}
分裂65:
增益= 0.0477
SplitInfo = 0.3712
增益比= 0.1285
分裂80:
增益= 0.1022
SplitInfo = 0.9402
增益比= 0.1087
WIND:
增益= 0.0481
SplitInfo = 0.9852
增益比= 0.0488
DATA:
Outlook Temperature Humidity Wind Play
--------------------------------------------
sun hot 85 low no
sun hot 90 high no
overcast hot 78 low yes
rain sweet 96 low yes
rain cold 80 low yes
rain cold 70 high no
overcast cold 65 high yes
sun sweet 95 low no
sun cold 70 low yes
rain sweet 80 low yes
sun sweet 70 high yes
overcast sweet 90 high yes
overcast hot 75 low yes
rain sweet 80 high no
答案 0 :(得分:0)
信息增益比用于通过在选择属性时考虑分支的数量和大小来减少对具有大量值的属性的偏差。在这里,我们已经选择了属性。因此,我们应该尝试最大化信息增益而不是信息增益比。