类相关性及其影响

时间:2018-10-20 11:30:11

标签: machine-learning dataset correlation

我正在浏览虹膜数据集:https://archive.ics.uci.edu/ml/machine-learning-databases/iris/,发现了这一点:

 Summary Statistics:
 Min  Max   Mean    SD   Class Correlation
sepal length: 4.3  7.9   5.84  0.83    0.7826   
sepal width: 2.0  4.4   3.05  0.43   -0.4194
petal length: 1.0  6.9   3.76  1.76    0.9490  (high!)
petal width: 0.1  2.5   1.20  0.76    0.9565  (high!)

类相关性意味着什么?一个特定特征的高或低可以推断出什么?

2 个答案:

答案 0 :(得分:1)

该参数似乎描述了Intraclass correlation,它是对类或组内相似度的度量。

较高的值表示该类别的样本趋于相似,而较低的值表示相反。

答案 1 :(得分:1)

类别关联是类别(也称为目标变量或响应)与其他功能(也称为自变量)之间的Pearson's Correlation Coefficient

皮尔逊相关系数绝对值介于0到1之间(1表示完美关系)。

例如,在鸢尾花数据集中,有 3个类别(即鸢尾花的种类),即: Setosa,Versicolour和Virginica

另一方面,您具有 4个功能,即:掌长,萼片宽,花瓣长和花瓣宽

最好从上方找到一个类与数据集中的一个特征之间的相关性,为什么?看看该功能/属性对这个班级有多少价值。换句话说,该类在该属性上的可靠性。


例如,从您的数据集中,花瓣宽度与类别(corr=0.9565)具有最高的相关性,这意味着:花瓣宽度的变化在很大程度上导致线性的类别变化!< / p>

因此,特征花瓣宽度对于模型化数据集以及预测任何未来看不见的新实例非常重要!

花瓣长度相同,与其他类别的相关性很高。


根据经验,皮尔逊相关绝对值可以解释如下:

  • 弱:从0.1到0.29
  • 中级:从0.3到0.49
  • 强:0.5比1

那是根据科恩的标准。