上面是我使用
后得到的图像plt.scatter(x[feature1],x[classes],c=x[classes])
现在,在我看来(新手),这个feature1
很好地分隔了各个类。
在应用RF分类器时,我获得了大约55%的准确度,注意到总分类为7,因此预测准确度高于随机基线,但是如果存在如此明显的分离(应该是),我会感到困惑,为什么会得出结果是不是有类似的条件?
答案 0 :(得分:0)
现在,在我看来(新手),这个
feature1
很好地分隔了各个类。
是吗?让我们根据您的情节尝试定性地观察...
为了实现良好的分离,我们应该在给定的功能中使用不重叠(或最小重叠)的类。似乎唯一表现出这种特性的类别是4和5,它们在2500附近有相对较小的重叠。
让我们取2750的值;根据您的情节,相应的样本可以是1、2、3、5或6级。
让我们再高一点,大约3000;这里的各个样本可以是1、2、5或7类。
在2500左右(第4和第5类的重叠区域)附近移动时,似乎样本可以是第7类以外的任何东西。
唯一明确的分隔似乎是对于大于3750(7类)的值。在3级和6级之间,即使是最低的特征值(<2000)也被共享。
纵观全局,看起来feature1
本身并不能为您的7个班级提供任何特殊的分隔;除了最小值和最大值附近的区域外,其他所有范围至少由3-4个类别共享...