R:如何为不包含NA值的每个主题创建排名变量

时间:2020-03-09 20:39:52

标签: r dplyr tidyverse

我要绘制这种情节:

enter image description here

我有“固定持续时间”(以秒为单位,但是可以)和“时间”变量,我需要创建“序数固定编号”变量,在该变量中,固定物将根据每个主题的时间变量进行排名。 我的注视数据包含一些NA值,这些值不应包含在排名中。

摘录自我的数据:

Subject FixationDuration Time
1       NA               1
1       0.33             2
1       NA               3
1       0.15             4.22
1       3.20             5.93
..
2       6.88             1
2       9.23             3
2       0.77             3.01
2       1.88             4.91
..
15      6.22             1
15      NA               1.56
15      NA               1.76
15      0.24             2.39

我需要以下结果:

Subject FixationDuration Time  OrdinalFixationNumber
1       NA               1     NA
1       0.33             2     1
1       NA               3     NA
1       0.15             4.22  2
1       3.20             5.93  3
..
2       6.88             1     1
2       9.23             3     2
2       0.77             3.01  3
2       1.88             4.91  4
..
15      6.22             1     1
15      NA               1.56  NA
15      NA               1.76  NA
15      0.24             2.39  2

有人可以帮我吗?谢谢。

1 个答案:

答案 0 :(得分:0)

这里是一种选择。按“主题”分组后,replace的“ FixationDuration”中的非Na元素按row_number的顺序按“时间”值排序,其中“ FixationDuration”为非NA

library(dplyr)
df1 %>% 
   group_by(Subject) %>% 
   mutate(OrdinalFixationNumber = replace(FixationDuration,
      !is.na(FixationDuration), row_number(Time[!is.na(FixationDuration)])))
# A tibble: 13 x 4
# Groups:   Subject [3]
#   Subject FixationDuration  Time OrdinalFixationNumber
#     <int>            <dbl> <dbl>                 <dbl>
# 1       1            NA     1                       NA
# 2       1             0.33  2                        1
# 3       1            NA     3                       NA
# 4       1             0.15  4.22                     2
# 5       1             3.2   5.93                     3
# 6       2             6.88  1                        1
# 7       2             9.23  3                        2
# 8       2             0.77  3.01                     3
# 9       2             1.88  4.91                     4
#10      15             6.22  1                        1
#11      15            NA     1.56                    NA
#12      15            NA     1.76                    NA
#13      15             0.24  2.39                     2

data.table中,可以使用

library(data.table)
setDT(df1)[!is.na(FixationDuration), OrdinalFixationNumber := 
          seq_len(.N)[order(Time)], by = Subject]
df1
#    Subject FixationDuration Time OrdinalFixationNumber
# 1:       1               NA 1.00                    NA
# 2:       1             0.33 2.00                     1
# 3:       1               NA 3.00                    NA
# 4:       1             0.15 4.22                     2
# 5:       1             3.20 5.93                     3
# 6:       2             6.88 1.00                     1
# 7:       2             9.23 3.00                     2
# 8:       2             0.77 3.01                     3
# 9:       2             1.88 4.91                     4
#10:      15             6.22 1.00                     1
#11:      15               NA 1.56                    NA
#12:      15               NA 1.76                    NA
#13:      15             0.24 2.39                     2

数据

df1 <- structure(list(Subject = c(1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 
15L, 15L, 15L, 15L), FixationDuration = c(NA, 0.33, NA, 0.15, 
3.2, 6.88, 9.23, 0.77, 1.88, 6.22, NA, NA, 0.24), Time = c(1, 
2, 3, 4.22, 5.93, 1, 3, 3.01, 4.91, 1, 1.56, 1.76, 2.39)), 
class = "data.frame", row.names = c(NA, 
-13L))