查找R中多列的相关性

时间:2016-09-21 12:36:08

标签: r group-by dataset analytics

我的要求是找到Co-Relation E_Id, IncomeType and Tax,以帮助了解是否E_Id, IncomeType始终导致更高Tax。我所需列的样本数据是

E_id           IncomeType                 Tax 
1                  1                    121
2                  1                    11.23
2                  3                    51.623
1                  1                    115.23
3                  4                    675.1

我有大约5 lacs的数据,4种类型的IncomeType,340种独特的E_id。我对数据进行了分组,现在我的数据看起来像这样:

E_Id    Tax_Income_1    Tax_Income_2    Tax_Income_3    Tax_Income_4
1         118025           66513.25          148134        274072.16
2         200527           235278            247536.42     487333.98
3         3376.93          11279             114312.5      130463.97
4         44630            22285.95          20830.55      2375
5         42902.63         15649             7602.01       3624

现在我不知道如何找到相关性。这是我的第一个分析项目,请提供一些指导。

3 个答案:

答案 0 :(得分:2)

我想提请您注意-related_table {funModeling}

data(mtcars)
correlation_table(data=mtcars, target="mpg")
Variable   mpg 
1      mpg  1.00 
2     drat  0.68 
3     gear  0.48 
4     qsec  0.42 
5     carb -0.55 
6       hp -0.78 
7      cyl -0.85 
8     disp -0.85 
9       wt -0.87

答案 1 :(得分:1)

同样使用mtcars数据集作为示例,cor()unction将生成一个变量相关矩阵。

data(mtcars)
cor(mtcars)

您还可以用图形方式表示这些相关性:

corrgram(mtcars)

enter image description here

答案 2 :(得分:0)

使用mtcars数据集作为示例,您可以可视化所有变量的相关性,如下所示:

data(mtcars)
pairs(mpg ~ ., data = mtcars)

enter image description here