我有一个数据集,我想在其中删除与特定类相对应的60%的数据。因此,我可以执行以下操作:
dataset %>% filter(Outcome=="diabetes") %>% slice(-seq(0.4 * n()))
但是,这首先仅过滤我要从中删除条目的数据集部分,然后对其进行切片。不过,我希望最终结果是原始数据集,但删除的数据中有60%与Outcome=="diabetes"
匹配。如何在R中实现这一目标?
答案 0 :(得分:0)
您可以使用sample_frac
执行此操作:每组获得60%:
mtcars %>%
filter(cyl == 4) %>%
sample_frac(0.6)
mpg cyl disp hp drat wt qsec vs am gear carb
1 22.8 4 108.0 93 3.85 2.320 18.61 1 1 4 1
2 21.4 4 121.0 109 4.11 2.780 18.60 1 1 4 2
3 30.4 4 95.1 113 3.77 1.513 16.90 1 1 5 2
4 32.4 4 78.7 66 4.08 2.200 19.47 1 1 4 1
5 33.9 4 71.1 65 4.22 1.835 19.90 1 1 4 1
6 24.4 4 146.7 62 3.69 3.190 20.00 1 0 4 2
7 21.5 4 120.1 97 3.70 2.465 20.01 1 0 3 1
您为什么接受它?我认为这不是您想要的吗?我保留了原来的答案,但我认为您想要这样做:
result <- mtcars %>%
group_by(cyl) %>%
sample_frac(ifelse(cyl == 4, 0.6, 1))
# A tibble: 15 x 11
# Groups: cyl [3]
mpg cyl disp hp drat wt qsec vs am gear carb
<dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 32.4 4 78.7 66 4.08 2.2 19.5 1 1 4 1
2 27.3 4 79 66 4.08 1.94 18.9 1 1 4 1
3 21.5 4 120. 97 3.7 2.46 20.0 1 0 3 1
4 22.8 4 108 93 3.85 2.32 18.6 1 1 4 1
5 24.4 4 147. 62 3.69 3.19 20 1 0 4 2
6 22.8 4 141. 95 3.92 3.15 22.9 1 0 4 2
7 26 4 120. 91 4.43 2.14 16.7 0 1 5 2
8 21.4 4 121 109 4.11 2.78 18.6 1 1 4 2
9 30.4 4 95.1 113 3.77 1.51 16.9 1 1 5 2
10 30.4 4 75.7 52 4.93 1.62 18.5 1 1 4 2
11 33.9 4 71.1 65 4.22 1.84 19.9 1 1 4 1
12 17.8 6 168. 123 3.92 3.44 18.9 1 0 4 4
13 15 8 301 335 3.54 3.57 14.6 0 1 5 8
14 14.7 8 440 230 3.23 5.34 17.4 0 0 3 4
15 18.7 8 360 175 3.15 3.44 17.0 0 0 3 2