将值从向量映射到数据框:计算百分位数

时间:2016-02-15 09:09:15

标签: r function loops vector percentile

我有一个数字向量( nth_RT )和一个数据框( df ):

nth_RT 
[1] 0.61 0.47 0.50 0.53 0.50 0.56


df
#    Subject    RT Trial Block  Rank
#     (int) (int) (int) (int) (int)
#1        1   234     1     1     1
#2        1   239     3     1     2
#3        1   563     2     1     3
#4        1   230     1     2     1
#5        1   234     3     2     2
#6        1   467     2     2     3
#7        1   111     3     3     1
#8        1   466     2     3     2
#9        1   543     1     3     3
#10       2    44     2     1     1
#11       2   223     3     1     2
#12       2   343     1     1     3
#13       2    34     2     2     1
#14       2   242     3     2     2
#15       2   324     1     2     3
#16       2    54     1     3     1
#17       2   345     3     3     2
#18       2   656     2     3     3

我想计算并添加每个受试者每个区块的第n个百分位数的新列(第n ),即第1个第1个受试者的第61个百分点,第47个百分点第2个第1个主题的RT,第3个第1个主题的RT的第50个百分点,第1个第2个参加者的第53个百分位等等。所以数据框看起来像这样:

df
#    Subject    RT Trial Block  Rank  nth
#1        1   234     1     1     1   310.28
#2        1   239     3     1     2   310.28
#3        1   563     2     1     3   310.28
#4        1   230     1     2     1   233.76
#5        1   234     3     2     2   233.76
#6        1   467     2     2     3   233.76
#7        1   111     3     3     1   466
#8        1   466     2     3     2   466
#9        1   543     1     3     3   466
#10       2    44     2     1     1   230.2
#11       2   223     3     1     2   230.2
#12       2   343     1     1     3   230.2
#13       2    34     2     2     1   242
#14       2   242     3     2     2   242
#15       2   324     1     2     3   242
#16       2    54     1     3     1   382.32
#17       2   345     3     3     2   382.32
#18       2   656     2     3     3   382.32

我有一个每个参与者一个块的代码,但它不起作用:

nth_RT <-quantile(df$RT ~ Block * Subject, nth_RT[1])

有没有更好的方法来计算百分位数并将它们添加为新列?我想可以使用循环或函数连续读取矢量中的每个值,然后计算百分位数。

1 个答案:

答案 0 :(得分:2)

我认为向量nth_RTBlock中的Subjectdf没有明确的对应关系。所以我建议你应该创建一个矩阵或data.frame来清楚地显示对应关系。例如,

grid <- expand.grid(Block = unique(df$Block), Subject = unique(df$Subject))
grid_nth_RT <- cbind(grid, nth_RT)

然后你会得到:

> grid_nth_RT
  Block Subject nth_RT
1     1       1   0.61
2     2       1   0.47
3     3       1   0.50
4     1       2   0.53
5     2       2   0.50
6     3       2   0.56

然后,我们可以使用for循环遍历每个Block - Subject对。

df$nth <- array(0, nrow(df))
for(i in 1:nrow(grid_nth_RT)) {
  index <- df$Block == grid_nth_RT[i,"Block"] &
           df$Subject == grid_nth_RT[i,"Subject"]
  df$nth[index] <- quantile(df[index,"RT"], grid_nth_RT[i,"nth_RT"])
}

我们找到了index - Block的所有行的Subject。然后我们可以对df[index,"RT"]进行分组。我们以df[index,"RT"]百分比计算grid_nth_RT[i,"nth_RT"]的分位数。我们将结果存储到df$nth[index]

> df
   Subject  RT Trial Block Rank    nth
1        1 234     1     1    1 310.28
2        1 239     3     1    2 310.28
3        1 563     2     1    3 310.28
4        1 230     1     2    1 233.76
5        1 234     3     2    2 233.76
6        1 467     2     2    3 233.76
7        1 111     3     3    1 466.00
8        1 466     2     3    2 466.00
9        1 543     1     3    3 466.00
10       2  44     2     1    1 230.20
11       2 223     3     1    2 230.20
12       2 343     1     1    3 230.20
13       2  34     2     2    1 242.00
14       2 242     3     2    2 242.00
15       2 324     1     2    3 242.00
16       2  54     1     3    1 382.32
17       2 345     3     3    2 382.32
18       2 656     2     3    3 382.32

顺便说一下,从你的代码

quantile(df$RT ~ Block * Subject, nth_RT[1])

我认为你对~有一些误解。 ~中的内容在R中称为formula。您可以查看此页面 https://stat.ethz.ch/R-manual/R-devel/library/stats/html/formula.html 要详细了解R中的formula