具有高基数属性的决策树

时间:2014-01-31 19:31:27

标签: machine-learning classification decision-tree cardinality

我想学习一个具有合理离散目标属性的决策树,其中有5个可能的不同值。 但是,有一些离散的高基数输入属性(1000个不同的可能字符串值),我想知道包含它们是否有意义。在包含训练决策树的属性时,是否存在最大基数应该是什么政策?

1 个答案:

答案 0 :(得分:1)

没有最大基数,没有。当然,您可以省略实际上不会出现在数据中的值。

您必须使用直接处理多标签分类功能的RDF实现,而不是将它们转换为一系列二进制指示器功能。

对于具有N个值的分类特征,该特征上存在2 ^ N-2个可能的决策规则,这个规则太长而无法考虑。我使用的启发式算法是在用N个分类特征值划分数据时计算目标的熵。然后通过熵对这些值进行排序,并通过考虑该列表的前缀来评估您获得的N-2规则。