机器学习 - 决策树 - 分裂特征值

时间:2015-09-14 23:44:43

标签: machine-learning decision-tree

我有一个关于拆分节点的问题。我有4个功能,想要预测这个人是否会玩,也许是玩或不玩。基于信息增益,我将天气作为分裂的第一个特征,它给了我雨天,炎热和潮湿的分支。 Rainy导致纯粹的Yes预测。炎热和潮湿没有。我正在尝试确定我应该选择哪个功能值(热或潮湿?)下一步增长/分割。我知道我可以根据最大信息增益选择下一个功能。具有最大信息增益的下一个功能是性别。但是我不知道我是否应该使用Hot进一步下降或者加湿?

               Weather  
Rainy            Hot             Humid
Yes                     


Gender  YoungOrOld  Weather Mood    Play?
Male    0           Hot     Bad     Yes
Male    1           Hot     OK      Yes
Female  1           Hot     OK      Maybe
Female  0           Hot     Bad     Yes
Male    1           Hot     OK      Yes
Male    0           Humid   OK      Yes
Female  1           Humid   OK      Maybe
Female  1           Rainy   Good    No
Male    2           Rainy   OK      No
Female  2           Rainy   Good    No

2 个答案:

答案 0 :(得分:1)

您已按功能"天气"划分了数据集的样本,现在您可以看到"天气=多雨"节点中的样本是纯粹的,因此您不必从此处拆分此节点,这与其他非纯节点不同,其中" Weather = Hot"或者"天气=潮湿"。由于杂质,默认情况下你应该将它们分开。但是你可以指定自己的停止标准,除了在节点是纯粹时停止,你可以指定拆分节点所需的最小样本数,然后不仅在纯净时停止节点的划分,而且当节点太少时停止节点中的样本执行拆分。

答案 1 :(得分:0)

你已经分开了天气和性别。 天气==雨天不再需要分裂 其他   性别=男性不再需要分裂

你提出的分歧将是Hot vs Humid,但这并没有获得任何好处。相反,拆分在YoungOrOld上。两个女' 1'条目是可能的;其他人都是的。 现在所有节点都是纯粹的。