我正在实施决策树。 假设“种族”功能具有以下可能的值: ['Asian-Pac-Islander','Amer-Indian-Eskimo','White','Other','Black']
假设节点中的样本具有以下“竞赛”特征值,并且“竞争”被选为目前最佳分割特征。
['Asian-Pac-Islander','Asian-Pac-Islander','Amer-Indian-Eskimo','White','White','White','Other','Black']
请注意,这些值组合在一起 - “已排序”。
假设entropy diff告诉我以下是最好的分裂位置:(垂直条“|”)
['Asian-Pac-Islander','Asian-Pac-Islander','Amer-Indian-Eskimo',| '白','白','白','其他','黑']
那么分裂规则究竟是什么?让“asian-pac-islander”和“amer_indian_eskimo”左转,“白色”,“其他”和“黑色”向右走是没有意义的,因为它们不是数字。
感谢。
答案 0 :(得分:0)
请记住,决策树节点的“左”和“右”子项是人类用于可视化的任意标签,而不是树的固有数学属性。翻转任何节点的左右子节点会导致相同(数学家可能会说“同构”)树。
在拆分分类属性时,通常会尝试每组值,并比较其基尼或信息增益,以确定最佳分割。一旦你建立了最好的分割,哪个组是“左”组,哪个是“右”组是随机选择的,因为它没关系。
看起来你也想到了在特定有序列表中绘制分界线的字面意义上的分裂。对于分类属性,不以这种方式创建拆分。相反,您将分割条件定义为,例如,“白色,其他和黑色向左移动;所有其他种族标签向右移动”。进入拆分节点的数据顺序不应影响生成的拆分。