您好,我正在使用ipred软件包中的数据营养不良。 我使用了一个子集来将其与运营商和普通用户分开:
carrier = subset(dystrophy,dystrophy$Class == "carrier")
normal = subset(dystrophy,dystrophy$Class == "normal")
并且我只选择了在医院就诊过1次的患者来简化此数据:
carrier = subset(carrier,carrier$OBS == "1")
normal = subset(normal,normal$OBS == "1")
所以现在我想练习计算蛋白质的均值矢量,协方差矩阵和相关矩阵,但是要按组(类因子)进行计算。
我曾经尝试过cor和cov,但是我认为我做错了。任何帮助,将不胜感激。谢谢!
答案 0 :(得分:1)
这可能会让您入门。使用变量,您可以使用以下方法获得每种蛋白质的均值:
sapply(carrier[,6:9], mean, na.rm=T)
sapply(normal[,6:9], mean, na.rm=T)
对于相关性和协方差,您可以使用:
cor(carrier[,6:9], use="pairwise.complete.obs")
cor(normal[,6:9], use="pairwise.complete.obs")
cov(carrier[,6:9], use="pairwise.complete.obs")
cov(normal[,6:9], use="pairwise.complete.obs")
这里的6:9
部分将计算限制在蛋白质上,并且不包括Age等其他功能。 use="pairwise.complete.obs"
部分在那里处理缺失值。