应用错误收集

时间：2014-01-31 19:31:27

标签： machine-learning classification decision-tree cardinality

我想学习一个具有合理离散目标属性的决策树，其中有5个可能的不同值。但是，有一些离散的高基数输入属性（1000个不同的可能字符串值），我想知道包含它们是否有意义。在包含训练决策树的属性时，是否存在最大基数应该是什么政策？

答案 0 :(得分：1)

没有最大基数，没有。当然，您可以省略实际上不会出现在数据中的值。

您必须使用直接处理多标签分类功能的RDF实现，而不是将它们转换为一系列二进制指示器功能。

对于具有N个值的分类特征，该特征上存在2 ^ N-2个可能的决策规则，这个规则太长而无法考虑。我使用的启发式算法是在用N个分类特征值划分数据时计算目标的熵。然后通过熵对这些值进行排序，并通过考虑该列表的前缀来评估您获得的N-2规则。