我正在尝试使用R中的rpart包创建决策树。为了达到树的最佳深度,我使用plotcp
函数。当我使用printcp
分析交叉验证的结果时,除其他细节外,我收到以下消息:
根节点错误:3599.8 / 14399 = 0.25
我的课程不平衡(1-75%,2-25%)。所以rpart似乎正在做的是使用默认阈值0.5。并且由于没有节点具有概率>对于C2类,它们都被归类为C1。
我不可能指定概率阈值吗?比方说,例如,如果> C2为0.35,将其归类为C2。
答案 0 :(得分:0)
您收到的消息:
Root node error: 3599.8/14399 = 0.25
不是错误。它是< printcp'标准输出的一部分。并且只是显示数据中每次观察的平均误差。据推测,你有14,399个观测值。如果您正在进行分类,那么正在使用的错误度量可能是GINI。你的树可能做得很好 - 我们看不到,因为你没有发布你的CP表的其余部分。
同样如此,如果你正在使用分类(例如在rpart中你的公式的主语是一个因素,或者你使用了书面方法=' class'),那么观察的分类就会下降按照大多数进入每个节点。事实上,如果所有叶节点在同一个类中占多数,那么从树中发送的所有内容都将根据该类进行分类。您可以考虑使用权重来鼓励不同的行为。