我想学习一个具有合理离散目标属性的决策树,其中有5个可能的不同值。 但是,有一些离散的高基数输入属性(1000个不同的可能字符串值),我想知道包含它们是否有意义。在包含训练决策树的属性时,是否存在最大基数应该是什么政策?
答案 0 :(得分:1)
没有最大基数,没有。当然,您可以省略实际上不会出现在数据中的值。
您必须使用直接处理多标签分类功能的RDF实现,而不是将它们转换为一系列二进制指示器功能。
对于具有N个值的分类特征,该特征上存在2 ^ N-2个可能的决策规则,这个规则太长而无法考虑。我使用的启发式算法是在用N个分类特征值划分数据时计算目标的熵。然后通过熵对这些值进行排序,并通过考虑该列表的前缀来评估您获得的N-2规则。