计算相关性b / w R中Spark数据帧的所有数字列

时间:2017-09-06 10:00:53

标签: r correlation sparkr

我有一个Spark DataframeR中包含以下结构: -

Var1----- Var 2----- Var 3 ------- Var 4----- Group  
98.64---- 32.35---- 11906.91-- 08.65----- A  
94.83---- 29.36---- 17287.57-- 06.01----- B  
99.94---- 35.36---- 30411.85-- 08.82----- C  
99.45---- 34.58---- 18267.26-- 10.09----- C  
99.93---- 36.64---- 23560.04-- 07.34----- A  
99.66---- 48.81---- 42076.44-- 08.44----- B  
99.96---- 27.38---- 18474.01-- 11.39----- A  
97.49---- 25.28---- 14615.50-- 06.60----- B  
98.98---- 32.50---- 10282.90-- 07.71----- C  
99.57---- 31.54---- 12725.56-- 06.17----- C  
99.91---- 26.46---- 10990.13-- 06.17----- C  

这是我的代表性数据集,记录数量非常巨大。同样,列数也超过200个。

我需要计算此Spark Dataframe中存在的所有数字变量之间的相关性。

0 个答案:

没有答案