散点图中两个要素之间的比例

时间:2018-11-16 09:05:24

标签: python machine-learning scatter-plot feature-selection

我有一个数据集:

  • 几乎45K样本
  • 8个功能
  • 4个课程

每个类别的样本所占百分比不同。我想为每个组合的对绘制所有散点图,即28张图表并考虑所有数据集。

因此,最后,对于每个图表,我得到一个散点图,在这里可以看到按类分发的样本。  就像我在书中看到的那样,是一个示例,其中他们通过为每个类考虑相同数量的样本来绘制这些散点图。

例如:100个样本class0,100个样本class1,100个样本class2,100个样本class3。

问题:我想知道通过考虑每个类的具有不同百分比的所有数据集是否正确?

注意:我想了解一下这些特征是否成对存在,是否可以线性分离。

1 个答案:

答案 0 :(得分:1)

  

这听起来像特征分析或特征选择

  1. 如果您想从地块中找出您的要素是否线性可分离,我将使用该类的所有样本。否则,随机选择一组说100个样本的样本,将使您最终得出含糊不清的结果,从而造成解释
  2. 当试图理解特征时,在图上仅进行定性的“外观”就不应成为管道的终点。宁可求助于一些体面的特征选择策略和方法,例如:递归特征消除,相关矩阵等(这里是R中的examples开头)
  3. 当试图理解一组功能时,有诸如ellbow方法之类的方法。