我有一个包含多个样本(列)和变量(行)的数据集。我想过滤出数据集,以确定特定样本集所特有的变量。
这是示例数据框
dput(df)
structure(list(Description=c("k__Bacteria;__;__;__;__","k__Bacteria;p__Acidobacteria;c__[Chloracidobacteria];o__RB41;f__Ellin6075",
"k__Bacteria;p__Acidobacteria;c__Acidobacteriia;o__Acidobacteriales;f__Koribacteraceae",
"k__Bacteria;p__Acidobacteria;c__DA052;o__Ellin6513;f__", "k__Bacteria;p__Acidobacteria;c__Solibacteres;o__Solibacterales;f__",
"k__Bacteria;p__Actinobacteria;c__Acidimicrobiia;o__Acidimicrobiales;f__",
"k__Bacteria;p__Actinobacteria;c__Actinobacteria;o__Actinomycetales;f__",
"k__Bacteria;p__Actinobacteria;c__Actinobacteria;o__Actinomycetales;f__Actinomycetaceae",
"k__Bacteria;p__Actinobacteria;c__Actinobacteria;o__Actinomycetales;f__Actinopolysporaceae",
"k__Bacteria;p__Actinobacteria;c__Actinobacteria;o__Actinomycetales;f__Corynebacteriaceae"
), ADZU.3 = c(2651L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 12L), ADZU.4 = c(2439L,
0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 5L), BEP.3 = c(11452L, 9L, 5L,
0L, 0L, 6L, 14L, 0L, 0L, 83L), BEP.4 = c(4168L, 0L, 0L, 9L, 3L,
0L, 0L, 5L, 6L, 61L), Hya.1 = c(15179L, 0L, 0L, 0L, 0L, 0L, 0L,
0L, 0L, 94L), Hya.2 = c(4525L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L,
34L)), row.names = c(NA, 10L), class = "data.frame")
我在dyplr中使用filter_at()函数,并且具有可以正常工作的代码。下面,我有许多以不同的字母A,B,H等开头的示例。我想找到对于以相同的字母开头的示例(例如,字母B)唯一的变量。
我有一个目前运行良好的代码
##code set 1, this code works
df.bep<-filter_at(df,vars(starts_with("A"),starts_with("H")),
all_vars(.==0))
这段代码的结果如下,这是我期望看到的:
dput(df.bep)
structure(list(Description = c("k__Bacteria;p__Acidobacteria;c__[Chloracidobacteria];o__RB41;f__Ellin6075",
"k__Bacteria;p__Acidobacteria;c__Acidobacteriia;o__Acidobacteriales;f__Koribacteraceae",
"k__Bacteria;p__Acidobacteria;c__DA052;o__Ellin6513;f__", "k__Bacteria;p__Acidobacteria;c__Solibacteres;o__Solibacterales;f__",
"k__Bacteria;p__Actinobacteria;c__Acidimicrobiia;o__Acidimicrobiales;f__",
"k__Bacteria;p__Actinobacteria;c__Actinobacteria;o__Actinomycetales;f__",
"k__Bacteria;p__Actinobacteria;c__Actinobacteria;o__Actinomycetales;f__Actinomycetaceae",
"k__Bacteria;p__Actinobacteria;c__Actinobacteria;o__Actinomycetales;f__Actinopolysporaceae"
), ADZU.3 = c(0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L), ADZU.4 = c(0L,
0L, 0L, 0L, 0L, 0L, 0L, 0L), BEP.3 = c(9L, 5L, 0L, 0L, 6L, 14L,
0L, 0L), BEP.4 = c(0L, 0L, 9L, 3L, 0L, 0L, 5L, 6L), Hya.1 = c(0L,
0L, 0L, 0L, 0L, 0L, 0L, 0L), Hya.2 = c(0L, 0L, 0L, 0L, 0L, 0L,
0L, 0L)), row.names = c(NA, -8L), class = "data.frame")
这个问题是,对于具有许多不同样本的较长数据集,为我要filter_at()的每个样本指定每个字母开始变得很麻烦。
我修改了脚本以使用-starts_with()
通过排除以我不想过滤的特定字母开头的样本来尝试过滤数据帧(例如,过滤所有以字母B开头的样本除外) ),例如:
df.bep.2<-filter_at(df,vars(-starts_with("B")),all_vars(.==0))
但是,第二组代码无法按预期运行。我没有收到任何错误,但是我得到了一个空的数据框
dput(df.bep.2)
structure(list(Description = character(0), ADZU.3 = integer(0),
ADZU.4 = integer(0), BEP.3 = integer(0), BEP.4 = integer(0),
Hya.1 = integer(0), Hya.2 = integer(0)), row.names = c(NA,
0L), class = "data.frame")
结合使用filter_at()和-starts_with()时,我需要在代码中添加其他内容吗?
答案 0 :(得分:1)
这表示您在all_vars
中的条件未在以"A"
开头的列中不满足。该过滤器正在搜索以A开头的所有列,而仅选择包含所有0
的行。
例如,mtcars
数据集在这种情况下将不返回任何内容:
mtcars %>%
filter_at(vars(-starts_with("q")), all_vars(. == 0))
[1] mpg cyl disp hp drat wt qsec vs am gear carb
<0 rows> (or 0-length row.names)
除非我们添加仅包含0
的行(尽管qsec
列可以为非零):
mtcars %>%
bind_rows(setNames(rep(0, ncol(.)), names(.))) %>%
filter_at(vars(-starts_with("q")), all_vars(. == 0))
mpg cyl disp hp drat wt qsec vs am gear carb
1 0 0 0 0 0 0 0 0 0 0 0
编辑:对于您的特定问题,这是因为列Description
不是== 0
。可能有几个解决方案,但是下面两个应该适合您!
df1 %>%
filter_at(vars(-starts_with("B"), -one_of("Description")), all_vars(. == 0))
df1 %>%
filter_if(sapply(., is.numeric) & !startsWith(names(.), "B"), all_vars(. == 0))