Question

给定一个数据帧，我想使用每一列的分位数来过滤每一列。我宁愿使用dplyr / tidyverse来完成此操作。

set.seed(23)
df <- data.frame(
  x1 = runif(10, 0, 100),
  x2 = runif(10, 0, 100),
  x3 = runif(10, 0, 100)
)
df
> df
         x1       x2       x3
1  57.66037 86.59590 58.63978
2  22.30729 70.14217 27.47410
3  33.18966 39.04731 14.76570
4  71.07246 31.47697 80.14103
5  81.94490 84.59473 38.64098
6  42.37206 13.92785 82.04507
7  96.35445 51.81206 68.49373
8  97.81304 59.35508 88.33893
9  84.05219 94.24617 11.19208
10 99.66112 62.80196 77.88340

> quantile(df$x1, .95)
     95% 
98.82949 
> quantile(df$x2, .95)
     95% 
90.80355

然后，我期望的结果将是1.一个长格式的数据帧，其中任何高于百分位数的值都设置为NA或将其完全删除；或者2.一个宽数据帧，其中的任何数值均超过百分位数的值设置为NA。

Answer 1

我认为执行这些操作的最简单方法是将其转换为长形，并使用x1，x2和x3作为计算分位数的组。然后，可以根据需要将其拉伸回宽的形状。您可以用NA显式替换较高的值，但是如果使用tidyr::spread，则无论如何都会为丢失的值填充NA。

为了清楚起见，我将保留一些中间步骤，但要旨是将gather变长，找到第95个百分位数，将值保持在第95个百分位数或以下，然后将spread返回宽。分组后，我还将行号添加为ID列，以避免出现可怕的“重复名称...”错误。对于分位数，看起来像这样：

library(tidyverse)

...

df %>%
  gather(key, value) %>%
  group_by(key) %>%
  mutate(q95 = quantile(value, 0.95), row = row_number())
#> # A tibble: 30 x 4
#> # Groups:   key [3]
#>    key   value   q95   row
#>    <chr> <dbl> <dbl> <int>
#>  1 x1     57.7  98.8     1
#>  2 x1     22.3  98.8     2
#>  3 x1     33.2  98.8     3
#>  4 x1     71.1  98.8     4
#>  5 x1     81.9  98.8     5
#>  6 x1     42.4  98.8     6
#>  7 x1     96.4  98.8     7
#>  8 x1     97.8  98.8     8
#>  9 x1     84.1  98.8     9
#> 10 x1     99.7  98.8    10
#> # ... with 20 more rows

从前几行中可以看到，第10行的值高于相应的第95个百分点，因此我们希望将其过滤掉并变成NA。

然后使用分位数进行过滤和散布。

df %>%
  gather(key, value) %>%
  group_by(key) %>%
  mutate(q95 = quantile(value, 0.95), row = row_number()) %>%
  filter(value <= q95) %>%
  select(-q95) %>%
  spread(key, value) %>%
  select(-row)
#> # A tibble: 10 x 3
#>       x1    x2    x3
#>    <dbl> <dbl> <dbl>
#>  1  57.7  86.6  58.6
#>  2  22.3  70.1  27.5
#>  3  33.2  39.0  14.8
#>  4  71.1  31.5  80.1
#>  5  81.9  84.6  38.6
#>  6  42.4  13.9  82.0
#>  7  96.4  51.8  68.5
#>  8  97.8  59.4  NA  
#>  9  84.1  NA    11.2
#> 10  NA    62.8  77.9

实际上，您不必只为q95添加一整列，而可以使用更简洁的内容，例如filter(value <= quantile(value, 0.95))。

R-使用dplyr根据每列的分位数过滤每列

1 个答案: