我是R的新人。
我有一个包含许多数字和非数字列的大型数据集。
我试图找出哪些列高度相关,这种相关性是否有意义。
首先,我想找出数值与分类值之间的相关性。它应该彼此分开。 我该怎么做才能找出相关性?
如何确定数据集中的错误或异常数据?
这只是一个示例数据集;
> df1 <- LungCapData22
> sapply(df1,class)
LungCap Age Height Smoke Gender Caesarean
"numeric" "integer" "numeric" "factor" "factor" "factor"
LungCap Age Height Smoke Gender Caesarean
1 6.475 6 62.1 no male no
2 10.125 18 74.7 yes female no
3 9.550 16 69.7 no female yes
4 11.125 14 71.0 no male no