Question

我的数据框包含个人的第1周和第12周课程调查结果，有些人参加了第1周的调查，如下面的学生＃100。除了示例中显示的那些之外，df中还有其他向量，但我想删除这些个体的最早观察结果。

St#   Week  Date    
100     1   15-Jun
100     1   18-Jun  
100     12  25-Aug  
101     1   17-Jun  
101     12  25-Aug
102     12  26-Aug

此外，我如何删除学生只参加第1周或第12周的观察，如＃102学生？

提前致谢

Answer 1

以下是data.table和plyr解决方案。

dat <- read.table(text = "St   Week  Date
100     1   15-Jun
100     1   18-Jun
100     12  25-Aug
101     1   17-Jun
101     12  25-Aug
102     12  26-Aug  ", header = TRUE, stringsAsFactors = FALSE)

dat$Date <- as.Date(paste(dat$Date, "2014"), format = "%d-%b %Y")

library(data.table)

DT <- data.table(dat)   
DT[order(Date), head(.SD, 1), by = list(St, Week)][duplicated(St) | duplicated(St, fromLast = TRUE)]

##     St Week       Date
## 1: 100    1 2014-06-15
## 2: 101    1 2014-06-17
## 3: 100   12 2014-08-25
## 4: 101   12 2014-08-25


library(plyr)

out <- ddply(dat, .(St, Week), function(x) head(x[order(x$Date),], 1) )
out[duplicated(out$St) | duplicated(out$St, fromLast = TRUE),]

##    St Week       Date
## 1 100    1 2014-06-15
## 2 100   12 2014-08-25
## 3 101    1 2014-06-17
## 4 101   12 2014-08-25

在同一周删除同一学生的旧调查观察

1 个答案: