所以我试图拆分具有可能值(蓝色,绿色,红色,橙色,粉红色)的属性“颜色”。
我正在分割https://developer.apple.com/reference/security/ksecattrtokenid个值,最好的分割可以是Multi-Way 5,Multi-Way 4,Multi-Way 3或Binary。例如:
5: (Blue, Green,Red,Orange,Pink)
4: (Blue, Green), (Red), (Orange), (Pink)
(Green,Pink), (Blue),(Red),(Orange)
3: (Red,Orange), (Blue,Green), (Pink)
(Red,Blue), (Green, Orange), (Pink)
2: (Blue,Green,Red), (Orange,Pink)
(Pink), (Blue, Green, Red, Orange)
等等。但是,我如何能够全面列出所有可能的分裂?我可以使用特定的算法吗?或者我怎么能知道有多少最大可能的组合呢?
任何帮助将不胜感激,谢谢!
答案 0 :(得分:0)
根据熵(信息增益)的最佳分割将始终为5。
当你根据一个属性进行分割时,要么你获得有关Y的信息,要么它们是独立的,没有信息增益,即每次分裂时的信息增益大于等于零。因此,IG(情况2:4)< = IG(情况1)作为情况2,3,4可以通过添加进一步的分割而成为情况1,这些分裂只能添加信息而不会丢失它。
对于拆分时的IG> = 0,请参阅:numbro。
一般情况下,在决策树/ RF中,您会尝试找到一个为属性提供最高IG的拆分,然后比较各个属性并选择一个。