混合数值和名义数据的决策树算法

时间:2017-01-17 03:45:45

标签: algorithm machine-learning artificial-intelligence decision-tree id3

我的数据集包含许多数字和分类属性

示例:numericAttr1,numericAttr2,categoricalAttr1,numericalAttr3 ...其中categoricalAttr值:categoricalAttrValue1,categoricalAttrValue2,categoricalAttrValue3。

我正在考虑将数值数据转换为分类数据(使用分箱算法)并应用ID3算法生成树,因为ID3仅处理离散数据。但是,如何处理过度拟合?并且对数值数据进行分类并应用ID3算法也是正确的吗?

2 个答案:

答案 0 :(得分:1)

如果过度拟合是一个问题,并且可以替换你的模型,我建议使用随机森林,因为它们对过度拟合非常不敏感。

另外,您不应该担心 binning 过程会导致过度拟合,因为它会创建您拥有的数据的泛化,并且如果有任何事情更有可能减少过度拟合。

答案 1 :(得分:0)

有几个决策树学习者可以处理数字属性,例如C4.5算法(https://en.wikipedia.org/wiki/C4.5_algorithm)。

关于过度拟合,我同意@ginge,事实上你使用诸如分档之类的技术将数值数据转换为分类数据不应该导致过度拟合。