Filter_at()无法与-starts_with()一起使用

时间:2019-08-07 18:57:34

标签: r filtering tidyr startswith

我有一个包含多个样本(列)和变量(行)的数据集。我想过滤出数据集,以确定特定样本集所特有的变量。

这是示例数据框

dput(df)
structure(list(Description=c("k__Bacteria;__;__;__;__","k__Bacteria;p__Acidobacteria;c__[Chloracidobacteria];o__RB41;f__Ellin6075", 
"k__Bacteria;p__Acidobacteria;c__Acidobacteriia;o__Acidobacteriales;f__Koribacteraceae", 
"k__Bacteria;p__Acidobacteria;c__DA052;o__Ellin6513;f__", "k__Bacteria;p__Acidobacteria;c__Solibacteres;o__Solibacterales;f__", 
"k__Bacteria;p__Actinobacteria;c__Acidimicrobiia;o__Acidimicrobiales;f__", 
"k__Bacteria;p__Actinobacteria;c__Actinobacteria;o__Actinomycetales;f__", 
"k__Bacteria;p__Actinobacteria;c__Actinobacteria;o__Actinomycetales;f__Actinomycetaceae", 
"k__Bacteria;p__Actinobacteria;c__Actinobacteria;o__Actinomycetales;f__Actinopolysporaceae", 
"k__Bacteria;p__Actinobacteria;c__Actinobacteria;o__Actinomycetales;f__Corynebacteriaceae"
), ADZU.3 = c(2651L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 12L), ADZU.4 = c(2439L, 
0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 5L), BEP.3 = c(11452L, 9L, 5L, 
0L, 0L, 6L, 14L, 0L, 0L, 83L), BEP.4 = c(4168L, 0L, 0L, 9L, 3L, 
0L, 0L, 5L, 6L, 61L), Hya.1 = c(15179L, 0L, 0L, 0L, 0L, 0L, 0L, 
0L, 0L, 94L), Hya.2 = c(4525L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 
34L)), row.names = c(NA, 10L), class = "data.frame")

我在dyplr中使用filter_at()函数,并且具有可以正常工作的代码。下面,我有许多以不同的字母A,B,H等开头的示例。我想找到对于以相同的字母开头的示例(例如,字母B)唯一的变量。

我有一个目前运行良好的代码

##code set 1, this code works

df.bep<-filter_at(df,vars(starts_with("A"),starts_with("H")), 
all_vars(.==0))

这段代码的结果如下,这是我期望看到的:

dput(df.bep)
structure(list(Description = c("k__Bacteria;p__Acidobacteria;c__[Chloracidobacteria];o__RB41;f__Ellin6075", 
"k__Bacteria;p__Acidobacteria;c__Acidobacteriia;o__Acidobacteriales;f__Koribacteraceae", 
"k__Bacteria;p__Acidobacteria;c__DA052;o__Ellin6513;f__", "k__Bacteria;p__Acidobacteria;c__Solibacteres;o__Solibacterales;f__", 
"k__Bacteria;p__Actinobacteria;c__Acidimicrobiia;o__Acidimicrobiales;f__", 
"k__Bacteria;p__Actinobacteria;c__Actinobacteria;o__Actinomycetales;f__", 
"k__Bacteria;p__Actinobacteria;c__Actinobacteria;o__Actinomycetales;f__Actinomycetaceae", 
"k__Bacteria;p__Actinobacteria;c__Actinobacteria;o__Actinomycetales;f__Actinopolysporaceae"
), ADZU.3 = c(0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L), ADZU.4 = c(0L, 
0L, 0L, 0L, 0L, 0L, 0L, 0L), BEP.3 = c(9L, 5L, 0L, 0L, 6L, 14L, 
0L, 0L), BEP.4 = c(0L, 0L, 9L, 3L, 0L, 0L, 5L, 6L), Hya.1 = c(0L, 
0L, 0L, 0L, 0L, 0L, 0L, 0L), Hya.2 = c(0L, 0L, 0L, 0L, 0L, 0L, 
0L, 0L)), row.names = c(NA, -8L), class = "data.frame")

这个问题是,对于具有许多不同样本的较长数据集,为我要filter_at()的每个样本指定每个字母开始变得很麻烦。

我修改了脚本以使用-starts_with()通过排除以我不想过滤的特定字母开头的样本来尝试过滤数据帧(例如,过滤所有以字母B开头的样本除外) ),例如:

df.bep.2<-filter_at(df,vars(-starts_with("B")),all_vars(.==0))

但是,第二组代码无法按预期运行。我没有收到任何错误,但是我得到了一个空的数据框

dput(df.bep.2)
structure(list(Description = character(0), ADZU.3 = integer(0), 
ADZU.4 = integer(0), BEP.3 = integer(0), BEP.4 = integer(0), 
Hya.1 = integer(0), Hya.2 = integer(0)), row.names = c(NA, 
0L), class = "data.frame")

结合使用filter_at()和-starts_with()时,我需要在代码中添加其他内容吗?

1 个答案:

答案 0 :(得分:1)

这表示您在all_vars中的条件未在以"A"开头的列中不满足。该过滤器正在搜索以A开头的所有列,而仅选择包含所有0的行。

例如,mtcars数据集在这种情况下将不返回任何内容:

mtcars %>%
  filter_at(vars(-starts_with("q")), all_vars(. == 0))

 [1] mpg  cyl  disp hp   drat wt   qsec vs   am   gear carb
<0 rows> (or 0-length row.names)

除非我们添加仅包含0的行(尽管qsec列可以为非零):

mtcars %>%
  bind_rows(setNames(rep(0, ncol(.)), names(.))) %>%
  filter_at(vars(-starts_with("q")), all_vars(. == 0))

  mpg cyl disp hp drat wt qsec vs am gear carb
1   0   0    0  0    0  0    0  0  0    0    0

编辑:对于您的特定问题,这是因为列Description不是== 0。可能有几个解决方案,但是下面两个应该适合您!

df1 %>%
  filter_at(vars(-starts_with("B"), -one_of("Description")), all_vars(. == 0))

df1 %>%
  filter_if(sapply(., is.numeric) & !startsWith(names(.), "B"), all_vars(. == 0))