我有一个关于拆分节点的问题。我有4个功能,想要预测这个人是否会玩,也许是玩或不玩。基于信息增益,我将天气作为分裂的第一个特征,它给了我雨天,炎热和潮湿的分支。 Rainy导致纯粹的Yes预测。炎热和潮湿没有。我正在尝试确定我应该选择哪个功能值(热或潮湿?)下一步增长/分割。我知道我可以根据最大信息增益选择下一个功能。具有最大信息增益的下一个功能是性别。但是我不知道我是否应该使用Hot进一步下降或者加湿?
Weather
Rainy Hot Humid
Yes
Gender YoungOrOld Weather Mood Play?
Male 0 Hot Bad Yes
Male 1 Hot OK Yes
Female 1 Hot OK Maybe
Female 0 Hot Bad Yes
Male 1 Hot OK Yes
Male 0 Humid OK Yes
Female 1 Humid OK Maybe
Female 1 Rainy Good No
Male 2 Rainy OK No
Female 2 Rainy Good No
答案 0 :(得分:1)
您已按功能"天气"划分了数据集的样本,现在您可以看到"天气=多雨"节点中的样本是纯粹的,因此您不必从此处拆分此节点,这与其他非纯节点不同,其中" Weather = Hot"或者"天气=潮湿"。由于杂质,默认情况下你应该将它们分开。但是你可以指定自己的停止标准,除了在节点是纯粹时停止,你可以指定拆分节点所需的最小样本数,然后不仅在纯净时停止节点的划分,而且当节点太少时停止节点中的样本执行拆分。
答案 1 :(得分:0)
你已经分开了天气和性别。 天气==雨天不再需要分裂 其他 性别=男性不再需要分裂
你提出的分歧将是Hot vs Humid,但这并没有获得任何好处。相反,拆分在YoungOrOld上。两个女' 1'条目是可能的;其他人都是的。 现在所有节点都是纯粹的。