创建分位数

时间:2013-12-23 17:04:26

标签: r matching quantile

我有一组个人的社会经济评分,范围从-6.3到3.5。现在我想根据他们的社会经济得分为每个人分配他们的分位数。

我有一个名为Healthdata的数据集,其中包含两列:Healthdata$SSEHealthdata$ID

最终,我希望得到一个与其SSE分位数相匹配的数据帧。

我怎样才能在R?

中这样做

2 个答案:

答案 0 :(得分:2)

这是一种方法:

# an example data set
set.seed(1)
Healthdata <- data.frame(SSE = rnorm(8), ID = gl(2, 4))

transform(Healthdata, quint = ave(SSE, ID, FUN = function(x) {
  quintiles <- quantile(x, seq(0, 1, .2))
  cuts <- cut(x, quintiles, include.lowest = TRUE)
  quintVal <- quintiles[match(cuts, levels(cuts)) + 1]
  return(quintVal)
}))

#          SSE ID      quint
# 1 -0.6264538  1 -0.4644344
# 2  0.1836433  1  0.7482983
# 3 -0.8356286  1 -0.7101237
# 4  1.5952808  1  1.5952808
# 5  0.3295078  2  0.3610920
# 6 -0.8204684  2 -0.1304827
# 7  0.4874291  2  0.5877873
# 8  0.7383247  2  0.7383247

如何运作的简单说明:

values <- 1:10
# [1]  1  2  3  4  5  6  7  8  9 10

quintiles <- quantile(values, seq(0, 1, .2))
#  0%  20%  40%  60%  80% 100% 
# 1.0  2.8  4.6  6.4  8.2 10.0 

cuts <- cut(values, quintiles, include.lowest = TRUE)
#  [1] [1,2.8]   [1,2.8]   (2.8,4.6] (2.8,4.6]
#  [5] (4.6,6.4] (4.6,6.4] (6.4,8.2] (6.4,8.2]
#  [9] (8.2,10]  (8.2,10] 
# 5 Levels: [1,2.8] (2.8,4.6] ... (8.2,10]

quintVal <- quintiles[match(cuts, levels(cuts)) + 1]
# 20%  20%  40%  40%  60%  60%  80%  80% 100% 100% 
# 2.8  2.8  4.6  4.6  6.4  6.4  8.2  8.2 10.0 10.0 

答案 1 :(得分:0)

因此,让我们从基于您的描述的示例数据集开始:

set.seed(315)
Healthdata <- data.frame(SSE = sample(-6.3:3.5, 21, replace=TRUE), ID = gl(7, 3))

其中包含以下内容:

> Healthdata[1:15,]
    SSE ID
1  -0.3  1
2  -6.3  2
3  -1.3  3
4  -3.3  4
5  -5.3  5
6  -4.3  6
7  -4.3  7
8   0.7  8
9  -4.3  9
10 -4.3  10
11 -3.3  11
12  0.7  12
13 -2.3  13
14 -3.3  14
15  0.7  15

我知道您需要一个新变量来识别个人社会经济状况的分位数组。我会做这样的事情:

transform(Healthdata, Q = cut(Healthdata$SSE, 
                              breaks = quantile(Healthdata$SSE), 
                              labels = c(1, 2, 3, 4),
                              include.lowest=TRUE))

要返回:

    SSE ID Q
1  -1.3  1 2
2  -6.3  2 1
3  -4.3  3 1
4   0.7  4 3
5   1.7  5 3
6   1.7  6 3
7  -5.3  7 1
8   1.7  8 3
9   2.7  9 4
10 -3.3 10 2
11 -1.3 11 2
12 -3.3 12 2
13  1.7 13 3
14  0.7 14 3
15 -4.3 15 1

如果要查看分位数范围的上限和下限,请省略labels = c(1, 2, 3, 4)以返回此值:

    SSE ID           Q
1  -1.3  1 (-4.3,-1.3]
2  -6.3  2 [-6.3,-4.3]
3  -4.3  3 [-6.3,-4.3]
4   0.7  4  (-1.3,1.7]
5   1.7  5  (-1.3,1.7]