创建决策树和拆分属性的问题?

时间:2016-09-27 08:40:51

标签: machine-learning classification decision-tree supervised-learning

所以我试图拆分具有可能值(蓝色,绿色,红色,橙色,粉红色)的属性“颜色”。

我正在分割https://developer.apple.com/reference/security/ksecattrtokenid个值,最好的分割可以是Multi-Way 5,Multi-Way 4,Multi-Way 3或Binary。例如:

5: (Blue, Green,Red,Orange,Pink)

4: (Blue, Green), (Red), (Orange), (Pink)
   (Green,Pink), (Blue),(Red),(Orange)

3: (Red,Orange), (Blue,Green), (Pink)
   (Red,Blue), (Green, Orange), (Pink)

2: (Blue,Green,Red), (Orange,Pink)
   (Pink), (Blue, Green, Red, Orange)

等等。但是,我如何能够全面列出所有可能的分裂?我可以使用特定的算法吗?或者我怎么能知道有多少最大可能的组合呢?

任何帮助将不胜感激,谢谢!

1 个答案:

答案 0 :(得分:0)

根据熵(信息增益)的最佳分割将始终为5。

当你根据一个属性进行分割时,要么你获得有关Y的信息,要么它们是独立的,没有信息增益,即每次分裂时的信息增益大于等于零。因此,IG(情况2:4)< = IG(情况1)作为情况2,3,4可以通过添加进一步的分割而成为情况1,这些分裂只能添加信息而不会丢失它。

对于拆分时的IG> = 0,请参阅:numbro

一般情况下,在决策树/ RF中,您会尝试找到一个为属性提供最高IG的拆分,然后比较各个属性并选择一个。

相关问题