Question

因此，基本上我想将numeric income variable转换为ordinal income variable，确定类别的截止点，以便每个类别以相同的N（或1如果是奇数N，则其中一个类别的数量要少）。

有人知道我如何在R中做到这一点吗？

Answer 1

以下是使用mtcars的示例。

我建议您使用ntile函数，以将变量分为相同数量的情况下的组。

假定感兴趣的变量为disp：

library(dplyr)

mtcars %>%
  group_by(g = ntile(disp, 3)) %>%                        # split variable into 3 groups
  mutate(g_range = paste0(min(disp), "-", max(disp))) %>% # create the ranges
  ungroup() -> df

您更新的数据（df）如下所示：

# # A tibble: 32 x 13
#    mpg   cyl  disp    hp  drat    wt  qsec    vs    am  gear  carb     g g_range  
#    <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <int> <chr>    
# 1  21       6  160    110  3.9   2.62  16.5     0     1     4     4     2 146.7-301
# 2  21       6  160    110  3.9   2.88  17.0     0     1     4     4     2 146.7-301
# 3  22.8     4  108     93  3.85  2.32  18.6     1     1     4     1     1 71.1-145 
# 4  21.4     6  258    110  3.08  3.22  19.4     1     0     3     1     2 146.7-301
# 5  18.7     8  360    175  3.15  3.44  17.0     0     0     3     2     3 304-472  
# 6  18.1     6  225    105  2.76  3.46  20.2     1     0     3     1     2 146.7-301
# 7  14.3     8  360    245  3.21  3.57  15.8     0     0     3     4     3 304-472  
# 8  24.4     4  147.    62  3.69  3.19  20       1     0     4     2     2 146.7-301
# 9  22.8     4  141.    95  3.92  3.15  22.9     1     0     4     2     1 71.1-145 
#10  19.2     6  168.   123  3.92  3.44  18.3     1     0     4     4     2 146.7-301
# # ... with 22 more rows

您可以检查每个组中的病例数：

df %>% count(g, g_range)

# # A tibble: 3 x 3
#       g g_range       n
#   <int> <chr>     <int>
# 1     1 71.1-145     11
# 2     2 146.7-301    11
# 3     3 304-472      10

R：如何将每个类别的数字变量重新编码为具有相同N的序数变量？

1 个答案: