我有一个Spark Dataframe
,R
中包含以下结构: -
Var1----- Var 2----- Var 3 ------- Var 4----- Group
98.64---- 32.35---- 11906.91-- 08.65----- A
94.83---- 29.36---- 17287.57-- 06.01----- B
99.94---- 35.36---- 30411.85-- 08.82----- C
99.45---- 34.58---- 18267.26-- 10.09----- C
99.93---- 36.64---- 23560.04-- 07.34----- A
99.66---- 48.81---- 42076.44-- 08.44----- B
99.96---- 27.38---- 18474.01-- 11.39----- A
97.49---- 25.28---- 14615.50-- 06.60----- B
98.98---- 32.50---- 10282.90-- 07.71----- C
99.57---- 31.54---- 12725.56-- 06.17----- C
99.91---- 26.46---- 10990.13-- 06.17----- C
这是我的代表性数据集,记录数量非常巨大。同样,列数也超过200个。
我需要计算此Spark
Dataframe
中存在的所有数字变量之间的相关性。