我正在使用Rpart {}为分类变量构建决策树,我想知道是否应该使用仅有一组唯一行的完整数据集。
答案 0 :(得分:5)
我回答这是关于决策树的一般性问题,而不是R实现。
决策树的参数通常基于记录计数 - 最小叶子大小和最小分割搜索大小。此外,在构建树时,纯度度量会受节点大小的影响。如果您有重复的记录,那么您将隐含地对这些行中的值进行权重。
这既不好也不坏。您只需要了解要构建的数据和模型。如果重复的值来自不同的实验运行,那么它们应该没问题。
在某些情况下,重复(或等效权重)可能非常糟糕。例如,如果您对数据进行过采样以在目标上获得平衡样本,那么额外的行将会出现问题。单个叶子可能最终由原始数据中的单个实例组成 - 过度拟合将是一个问题。
答案 1 :(得分:0)
在某些方面,这取决于数据本身。重复行是否有效数据?或者他们只是部分重复但仍然很重要?
如果数据是某个城镇在给定时间内的温度测量值,那么重复的温度可能很重要,因为它们会将此变量加权为比另一个不同的单独测量值更正确的温度。
如果数据是三个人同时记录同一温度计的温度测量值,那么您可能希望通过减少到唯一值来消除数据中的噪声。
答案很可能是上述的结合。如果您有多个读数在同一时间段发生冲突,您可以选择权重最大的读数,然后决定如何断开关系,如果所有测量结果都相同,则删除重复数据。通过这种方式,您可以在通过算法之前清理数据。
这一切都归结为数据模型中的相关内容以及重复的行是否与结果相关。