我的数据框包含个人的第1周和第12周课程调查结果,有些人参加了第1周的调查,如下面的学生#100。除了示例中显示的那些之外,df中还有其他向量,但我想删除这些个体的最早观察结果。
St# Week Date
100 1 15-Jun
100 1 18-Jun
100 12 25-Aug
101 1 17-Jun
101 12 25-Aug
102 12 26-Aug
此外,我如何删除学生只参加第1周或第12周的观察,如#102学生?
提前致谢
答案 0 :(得分:0)
以下是data.table
和plyr
解决方案。
dat <- read.table(text = "St Week Date
100 1 15-Jun
100 1 18-Jun
100 12 25-Aug
101 1 17-Jun
101 12 25-Aug
102 12 26-Aug ", header = TRUE, stringsAsFactors = FALSE)
dat$Date <- as.Date(paste(dat$Date, "2014"), format = "%d-%b %Y")
library(data.table)
DT <- data.table(dat)
DT[order(Date), head(.SD, 1), by = list(St, Week)][duplicated(St) | duplicated(St, fromLast = TRUE)]
## St Week Date
## 1: 100 1 2014-06-15
## 2: 101 1 2014-06-17
## 3: 100 12 2014-08-25
## 4: 101 12 2014-08-25
library(plyr)
out <- ddply(dat, .(St, Week), function(x) head(x[order(x$Date),], 1) )
out[duplicated(out$St) | duplicated(out$St, fromLast = TRUE),]
## St Week Date
## 1 100 1 2014-06-15
## 2 100 12 2014-08-25
## 3 101 1 2014-06-17
## 4 101 12 2014-08-25