处理决策树的分类功能的策略?

时间:2016-04-08 19:09:31

标签: machine-learning decision-tree feature-selection categorical-data

在节点上,对于分类特征,我目前正尝试所有(2 ^ m -2)/ 2种可能的方法将m个不同的特征值分成两组。在考虑该特征时,具有相同特征值的所有样本将作为一组一起移动。

问题是,当m为35(例如国家)时,我将不得不尝试17万亿次分裂。

处理分类功能的任何其他方法?

1 个答案:

答案 0 :(得分:0)

http://uk.mathworks.com/help/stats/splitting-categorical-predictors-for-multiclass-classification.html?s_tid=gn_loc_drop描述了这个问题。简而言之:

  • 如果这是二元分类问题,请根据此类别的平均响应对m值进行排序,然后尝试使用m-1方法拆分此序列。

  • 此外,该链接仅描述了启发式,包括Coppersmith,Hong和Hosking的启发式。一个经典的是假装:只需尝试m分割,每个分割由右分支的一个值和左分支的m-1值组成。