用于特征选择的方差分析

时间:2019-03-31 17:45:01

标签: r anova

我正在尝试使用R中的 ANOVA 执行特征选择。目前,我有一个大的矩阵(名为 expressionMarix ),该表达式存储了我的表达谱和一个因子(代表标签)代表了4种疾病。 expressionMatrix 看起来像这样:

           1007_s_at    1053_at     117_at    121_at   1255_g_at
GSM1304852  2.394537 0.10510845 -0.4597124 0.9333566 -0.23991384
GSM1304853  2.275184 0.06160802 -0.5231035 1.1318090  0.10112324
GSM1304854  2.161163 0.34217618 -0.4436059 0.9975700 -0.04087979
GSM1304855  1.964183 0.35939157 -0.6370277 1.0079778 -0.21851374
GSM1304856  2.132253 0.22356958 -0.3511470 0.9720455 -0.29917857

列是基因,行是样本。

是否有允许我使用ANOVA选择相关列的软件包? 我当前的代码如下:

modelAnova <- aov(expressionMatrix ~ Labels)
sumAnova <- summary(modelAnova)
pValList <- list()
i = 1
while(i < dim(Mstriat)[1]){
  print(i)
  pValList[i] <- sumAnova[[i]][["Pr(>F)"]][1]
  i <- i+1
}
keepers<-which(cValList<0.05)

但是for循环确实很耗时。有没有更有效的方法?

1 个答案:

答案 0 :(得分:1)


没有dput(expressionMarix)dput(Labels)输出的情况下,很难给出完美的答案,但是,我在其他模型上也遇到了同样的问题,并且它对broom::tidy()函数的帮助很大。想法是在data.frame中转换模型,然后仅对带有所需p.value的行进行子集化,即现在的一列:

library(broom)
# this is going to put in a data.frame the output of the model
inline <- tidy(modelAnova)

# here you filter the p.value <= 0.05
inline[!is.na(inline$p.value <= 0.05),]