叶子少于预期的分类树

时间:2016-11-03 19:29:35

标签: r tree classification

我的树形图仅显示两片叶子:" DIFF"和" REG"并完全忽略响应变量的其他值。为什么树忽略其他6个值?它是否与我的响应变量中仅占总值的一小部分的事实有关?下表显示了响应变量

中的频率计数值
35785   ED      1%
38060   NONE    1%
45880   INC     1%
49787   UT      1%
53108   OR      1%
165945  ET      4%
1728019 DIFF    43%
1894532 REG     47%

1 个答案:

答案 0 :(得分:0)

我怀疑这取决于您所指的不平衡类。偏斜的数据会导致机器学习算法出现问题。例如,我的客户曾经天真地建立了一个使用机器学习的欺诈检测系统,并且在测试报告97%的准确度而没有任何调整时给人留下了深刻的印象。

制定预测规则是“从来没有任何欺诈行为”。欺诈是如此罕见,“规则集”导致97%的准确性。

我假设你的情况类似 - 尽管没有细节,我倾向于坐在栅栏上。

ways to address the issue