我可以在tidyverse中分组吗?
更大的任务是,如果组中的观察值很少,则用NA
替换分组变量。我想将小组合并为一个NA
小组。
但是,下面的代码不会让我group_by(x)
,其中x
是循环变量。
library(tidyverse)
for (x in c("cyl", "gear")) {
mtcars %>%
add_count(x) %>%
mutate(x = ifelse(n() < 10, NA, x))
}
我收到以下错误。
Error in grouped_df_impl(data, unname(vars), drop) :
Column `x` is unknown
答案 0 :(得分:3)
您的意思是这样的吗?
library(dplyr)
for (x in c("cyl", "gear")) {
col <- sym(x)
mtcars <- mtcars %>%
add_count(!!col) %>%
mutate(!!col := ifelse(n < 10, NA, !!col)) %>%
select(-n)
}
mtcars
#> # A tibble: 32 x 11
#> mpg cyl disp hp drat wt qsec vs am gear carb
#> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
#> 1 21 NA 160 110 3.9 2.62 16.5 0 1 4 4
#> 2 21 NA 160 110 3.9 2.88 17.0 0 1 4 4
#> 3 22.8 4 108 93 3.85 2.32 18.6 1 1 4 1
#> 4 21.4 NA 258 110 3.08 3.22 19.4 1 0 3 1
#> 5 18.7 8 360 175 3.15 3.44 17.0 0 0 3 2
#> 6 18.1 NA 225 105 2.76 3.46 20.2 1 0 3 1
#> 7 14.3 8 360 245 3.21 3.57 15.8 0 0 3 4
#> 8 24.4 4 147. 62 3.69 3.19 20 1 0 4 2
#> 9 22.8 4 141. 95 3.92 3.15 22.9 1 0 4 2
#> 10 19.2 NA 168. 123 3.92 3.44 18.3 1 0 4 4
#> # ... with 22 more rows
由reprex package(v0.2.1)于2018-12-08创建
(我知道这不是最简单的语法...)
答案 1 :(得分:1)
您也可以将mutate_at
与table
一起使用
library(tidyverse)
mtcars %>%
mutate_at(vars(cyl, gear), ~ {
t <- table(.)
ifelse(. %in% names(t[t < 10]), NA, .)})
可以使用purrr::keep
将功能简化为一行
mtcars %>%
mutate_at(vars(cyl, gear),
~ ifelse(. %in% names(keep(table(.), `<`, 10)), NA, .))
或者,如果您正巧使用data.table,则可以使用“更新联接”将子集分配给计数较低的组,然后将NA
分配给该子集
library(data.table)
dt <- as.data.table(mtcars)
for(x in c('cyl', 'gear'))
dt[dt[, .N, x][N < 10], on = x, (x) := NA]
这将达到相同的结果
all.equal(
dt,
mtcars %>%
mutate_at(vars(cyl, gear),
~ ifelse(. %in% names(keep(table(.), `<`, 10)), NA, .)) %>%
setDT
)
# [1] TRUE