从散点图可视化进行类分离

时间:2018-08-03 15:58:09

标签: machine-learning feature-selection

enter image description here

上面是我使用

后得到的图像
plt.scatter(x[feature1],x[classes],c=x[classes])

现在,在我看来(新手),这个feature1很好地分隔了各个类。

在应用RF分类器时,我获得了大约55%的准确度,注意到总分类为7,因此预测准确度高于随机基线,但是如果存在如此明显的分离(应该是),我会感到困惑,为什么会得出结果是不是有类似的条件?

1 个答案:

答案 0 :(得分:0)

  

现在,在我看来(新手),这个feature1很好地分隔了各个类。

是吗?让我们根据您的情节尝试定性地观察...

为了实现良好的分离,我们应该在给定的功能中使用不重叠(或最小重叠)的类。似乎唯一表现出这种特性的类别是4和5,它们在2500附近有相对较小的重叠。

让我们取2750的值;根据您的情节,相应的样本可以是1、2、3、5或6级。

让我们再高一点,大约3000;这里的各个样本可以是1、2、5或7类。

在2500左右(第4和第5类的重叠区域)附近移动时,似乎样本可以是第7类以外的任何东西。

唯一明确的分隔似乎是对于大于3750(7类)的值。在3级和6级之间,即使是最低的特征值(<2000)也被共享。

纵观全局,看起来feature1本身并不能为您的7个班级提供任何特殊的分隔;除了最小值和最大值附近的区域外,其他所有范围至少由3-4个类别共享...