Question

上面是我使用

后得到的图像

plt.scatter(x[feature1],x[classes],c=x[classes])

现在，在我看来（新手），这个feature1很好地分隔了各个类。

在应用RF分类器时，我获得了大约55％的准确度，注意到总分类为7，因此预测准确度高于随机基线，但是如果存在如此明显的分离（应该是），我会感到困惑，为什么会得出结果是不是有类似的条件？

Answer 1

现在，在我看来（新手），这个feature1很好地分隔了各个类。

是吗？让我们根据您的情节尝试定性地观察...

为了实现良好的分离，我们应该在给定的功能中使用不重叠（或最小重叠）的类。似乎唯一表现出这种特性的类别是4和5，它们在2500附近有相对较小的重叠。

让我们取2750的值；根据您的情节，相应的样本可以是1、2、3、5或6级。

让我们再高一点，大约3000；这里的各个样本可以是1、2、5或7类。

在2500左右（第4和第5类的重叠区域）附近移动时，似乎样本可以是第7类以外的任何东西。

唯一明确的分隔似乎是对于大于3750（7类）的值。在3级和6级之间，即使是最低的特征值（<2000）也被共享。

纵观全局，看起来feature1本身并不能为您的7个班级提供任何特殊的分隔；除了最小值和最大值附近的区域外，其他所有范围至少由3-4个类别共享...