如何在dplyr链中过滤时保留基础数据框rownames

时间:2017-08-01 01:09:07

标签: r dplyr

我有以下数据框:


df <- structure(list(BoneMarrow = c(30, 0, 0, 31138, 2703), Pulmonary = c(3380, 
21223.3333333333, 0, 0, 27)), row.names = c("ATP1B1", "CYCS", 
"DDX5", "GNB2L1", "PRR11"), class = "data.frame", .Names = c("BoneMarrow", 
"Pulmonary"))

df 
#>        BoneMarrow Pulmonary
#> ATP1B1         30   3380.00
#> CYCS            0  21223.33
#> DDX5            0      0.00
#> GNB2L1      31138      0.00
#> PRR11        2703     27.00

我想要做的是摆脱值为&lt;在任何一列中都有8个。我尝试了这个,但行名称(例如ATP1B1,CYCS等)消失了:

> df %>% filter(!apply(., 1, function(row) any(row <= 8 )))
  BoneMarrow Pulmonary
1         30      3380
2       2703        27

如何在dplyr链中保留它?

4 个答案:

答案 0 :(得分:35)

您可以将rownames转换为列并在过滤后恢复:

library(dplyr)
library(tibble)  # for `rownames_to_column` and `column_to_rownames`

df %>%
    rownames_to_column('gene') %>%
    filter_if(is.numeric, all_vars(. >= 8)) %>%
    column_to_rownames('gene')

#        BoneMarrow Pulmonary
# ATP1B1         30      3380
# PRR11        2703        27

答案 1 :(得分:4)

dplyr绝对可以解决这个问题,如何通过使用base R Boolean

来尝试这个
df[rowSums(df>8)==dim(df)[2],] 

       BoneMarrow Pulmonary
ATP1B1         30      3380
PRR11        2703        27

EDIT1:或者你可以df[!rowSums(df<8),](根据@ user20650)会给你相同的结果。

答案 2 :(得分:3)

以下是base R

的另一个Reduce方法
df[Reduce(`&`, lapply(df, `>=`, 8)),]
#       BoneMarrow Pulmonary
#ATP1B1         30      3380
#PRR11        2703        27

答案 3 :(得分:1)

对于基因计数,您经常想知道至少x个样本是否具有多于y个计数,而不是仅仅是所有样本。

不如filter_if那么漂亮,但我不确定您如何使用all_vars实现相同的rowSums条件

   x <- sample_threshold  
   y <- count_threshold

   require(dplyr) 
   require(tibble)

   df %>%  
       tibble::rownames_to_column('gene') %>%  
       dplyr::filter(rowSums(dplyr::select(., -gene) > y) > x) %>%  
       tibble::column_to_rownames('gene')