我的树形图仅显示两片叶子:" DIFF"和" REG"并完全忽略响应变量的其他值。为什么树忽略其他6个值?它是否与我的响应变量中仅占总值的一小部分的事实有关?下表显示了响应变量
中的频率计数值35785 ED 1%
38060 NONE 1%
45880 INC 1%
49787 UT 1%
53108 OR 1%
165945 ET 4%
1728019 DIFF 43%
1894532 REG 47%
答案 0 :(得分:0)
我怀疑这取决于您所指的不平衡类。偏斜的数据会导致机器学习算法出现问题。例如,我的客户曾经天真地建立了一个使用机器学习的欺诈检测系统,并且在测试报告97%的准确度而没有任何调整时给人留下了深刻的印象。
制定预测规则是“从来没有任何欺诈行为”。欺诈是如此罕见,“规则集”导致97%的准确性。
我假设你的情况类似 - 尽管没有细节,我倾向于坐在栅栏上。