使用dplyr中的循环获取频率

时间:2019-04-07 00:44:41

标签: r dplyr

我试图使用循环和dplyr软件包获取每个变量的频率表,下面是使用mtcars数据的代码示例:

library(dplyr)

var= c("vs", "am", "gear")

for (i in var){
mtcars %>%
group_by(carb) %>%
count(i)
}

可悲的是只有我得到:

Error: Column `i` is unknown

我也尝试过

for (i in var){
mtcars %>%
group_by(carb) %>%
summarise_each(funs(n()), i)
}

但不是成功, 请任何建议,我将不胜感激。

2 个答案:

答案 0 :(得分:0)

要以编程方式将变量作为字符串传递,可以使用这些函数的版本,并在末尾加下划线,例如count_group_by_等。

在这种情况下为:

for (i in var){
  mtcars %>%
    group_by(carb) %>%
    count_(i) %>% 
    print()
}

您专门要求进行for循环,但是出于您的考虑,这里有一个lapply替代方案,它使将不同结果存储在一个地方以便以后访问变得更加容易:

lapply(var, FUN = function(i) mtcars %>% group_by(carb) %>% count_(i))

答案 1 :(得分:0)

我们可以使用!!sym()作为变量名。我还建议将结果保存到如下列表中。

var <- c("vs", "am", "gear")

library(dplyr)

count_tables <- list()

for (i in var){
  temp <- mtcars %>%
    group_by(carb) %>%
    count(!!sym(i))

  count_tables[[i]] <- temp       
}

count_tables
# $vs
# # A tibble: 8 x 3
# # Groups:   carb [6]
#    carb    vs     n
#   <dbl> <dbl> <int>
# 1     1     1     7
# 2     2     0     5
# 3     2     1     5
# 4     3     0     3
# 5     4     0     8
# 6     4     1     2
# 7     6     0     1
# 8     8     0     1
# 
# $am
# # A tibble: 9 x 3
# # Groups:   carb [6]
#   carb    am     n
#   <dbl> <dbl> <int>
# 1     1     0     3
# 2     1     1     4
# 3     2     0     6
# 4     2     1     4
# 5     3     0     3
# 6     4     0     7
# 7     4     1     3
# 8     6     1     1
# 9     8     1     1
# 
# $gear
# # A tibble: 11 x 3
# # Groups:   carb [6]
#     carb  gear     n
#    <dbl> <dbl> <int>
#  1     1     3     3
#  2     1     4     4
#  3     2     3     4
#  4     2     4     4
#  5     2     5     2
#  6     3     3     3
#  7     4     3     5
#  8     4     4     4
#  9     4     5     1
# 10     6     5     1
# 11     8     5     1

通常也使用lapply在向量或列表中循环以应用函数并将对象作为列表返回。以下生成与for循环相同的输出。

count_tables <- lapply(var, function(x) {
  mtcars %>%
    group_by(carb) %>%
    count(!!sym(i))
})
names(count_tables) <- var