在tidyverse中分组循环

时间:2018-12-08 18:53:48

标签: r tidyverse

我可以在tidyverse中分组吗?

更大的任务是,如果组中的观察值很少,则用NA替换分组变量。我想将小组合并为一个NA小组。

但是,下面的代码不会让我group_by(x),其中x是循环变量。

library(tidyverse)

for (x in c("cyl", "gear")) {
    mtcars %>%
        add_count(x) %>% 
        mutate(x = ifelse(n() < 10, NA, x))
}

我收到以下错误。

Error in grouped_df_impl(data, unname(vars), drop) : 
  Column `x` is unknown

2 个答案:

答案 0 :(得分:3)

您的意思是这样的吗?

library(dplyr)
for (x in c("cyl", "gear")) {
  col <- sym(x)
  mtcars <- mtcars %>%
    add_count(!!col) %>% 
    mutate(!!col := ifelse(n < 10, NA, !!col)) %>% 
    select(-n)
}
mtcars
#> # A tibble: 32 x 11
#>      mpg   cyl  disp    hp  drat    wt  qsec    vs    am  gear  carb
#>    <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
#>  1  21      NA  160    110  3.9   2.62  16.5     0     1     4     4
#>  2  21      NA  160    110  3.9   2.88  17.0     0     1     4     4
#>  3  22.8     4  108     93  3.85  2.32  18.6     1     1     4     1
#>  4  21.4    NA  258    110  3.08  3.22  19.4     1     0     3     1
#>  5  18.7     8  360    175  3.15  3.44  17.0     0     0     3     2
#>  6  18.1    NA  225    105  2.76  3.46  20.2     1     0     3     1
#>  7  14.3     8  360    245  3.21  3.57  15.8     0     0     3     4
#>  8  24.4     4  147.    62  3.69  3.19  20       1     0     4     2
#>  9  22.8     4  141.    95  3.92  3.15  22.9     1     0     4     2
#> 10  19.2    NA  168.   123  3.92  3.44  18.3     1     0     4     4
#> # ... with 22 more rows

reprex package(v0.2.1)于2018-12-08创建

(我知道这不是最简单的语法...)

答案 1 :(得分:1)

您也可以将mutate_attable一起使用

library(tidyverse)

mtcars %>% 
  mutate_at(vars(cyl, gear), ~ {
            t <- table(.)
            ifelse(. %in% names(t[t < 10]), NA, .)})

可以使用purrr::keep将功能简化为一行

mtcars %>% 
  mutate_at(vars(cyl, gear),
            ~ ifelse(. %in% names(keep(table(.), `<`, 10)), NA, .))

或者,如果您正巧使用data.table,则可以使用“更新联接”将子集分配给计数较低的组,然后将NA分配给该子集

library(data.table)
dt <- as.data.table(mtcars)

for(x in c('cyl', 'gear'))
  dt[dt[, .N, x][N < 10], on = x, (x) := NA]

这将达到相同的结果

all.equal(
  dt, 
  mtcars %>% 
    mutate_at(vars(cyl, gear),
    ~ ifelse(. %in% names(keep(table(.), `<`, 10)), NA, .)) %>% 
    setDT
)
# [1] TRUE