标签: machine-learning decision-tree
决策树是否对添加多个副本敏感 训练集中的相同实例。
如果是,为什么?
答案 0 :(得分:1)
这取决于实施
对于树的创建,您将使用一些标准拆分剩余的学习集。最常用的是在下面的叶子中增加纯度(纯度可以被视为在一片叶子中具有所有相同的类别)。如果您将纯度定义为每个示例中A类和B类元素之间的比率,则多个副本将最终位于同一个叶子中,并使分割偏向于它们。
我知道一些实现会考虑到这一点,并使用替代标准来克服这个问题。