我正在研究决策树模型。数据集与汽车有关。我在训练集中有80%的数据,在测试集中有20%的数据。该模型的摘要(基于训练数据)显示误分类率约为0.02605,其中,当我在训练集上运行该模型时,其值为0.0289,两者之间的差约为0.003。差异是否可以接受,是什么原因导致差异?我是R / statistics的新手,请分享您的反馈意见。
答案 0 :(得分:0)
可接受的错误分类率比科学还重要。如果您的数据是从单个总体生成的,那么毫无疑问,各组之间会有一些不可避免的重叠,这会使线性分类容易出错。这并不意味着有问题。例如,如果您将信用卡费用分类为可能的欺诈与否,并且在将观察结果分类为前者的情况下,您的追索权不是太苛刻,那么从安全的角度考虑并结束交易可能是有利的。出现更多的假阳性,而不是错误分类率低。您可以1.可视化数据以识别重叠,或2.计算N * .03来识别错误分类的案例数;如果您了解要分类的内容,则可以通过这种方式评估错误分类的严重性。