我有一个关于矢量“分裂”的问题,尽管不同的方法可能是可行的。我有一个data.frame(df),看起来像这样(简化版):
case time
1 1 5
2 2 3
3 3 4
“时间”变量计算事件发生前的时间单位(天,周等)。我想通过增加行数来扩展数据集,并将“时间”“拆分”为长度为1的间隔,从2开始。结果可能看起来像这样:
case time begin end
1 1 5 2 3
2 1 5 3 4
3 1 5 4 5
4 2 3 2 3
5 3 4 2 3
6 3 4 3 4
显然,我的数据集比这个例子略大。实现这一结果的可行方法是什么?
我有一个以
开头的想法df.exp <- df[rep(row.names(df), df$time - 2), 1:2]
为了扩展每个案例的行数,根据时间间隔的数量。基于此,可以以下列方式添加“开始”和“结束”列:
df.exp$begin <- 2:(df.exp$time-1)
但是,我没有成功创建相应的列,因为此命令仅使用第一行来计算(df.exp $ time-1),并且不会自动区分“case”。
非常感谢任何想法!
答案 0 :(得分:7)
你可以尝试
df2 <- df1[rep(1:nrow(df1), df1$time-2),]
row.names(df2) <- NULL
m1 <- do.call(rbind,
Map(function(x,y) {
v1 <- seq(x,y)
cbind(v1[-length(v1)],v1[-1L])},
2, df1$time))
df2[c('begin', 'end')] <- m1
df2
# case time begin end
#1 1 5 2 3
#2 1 5 3 4
#3 1 5 4 5
#4 2 3 2 3
#5 3 4 2 3
#6 3 4 3 4
或data.table
library(data.table)
setDT(df1)[,{tmp <- seq(2, time)
list(time= time,
begin= tmp[-length(tmp)],
end=tmp[-1])} , by = case]
# case time begin end
#1: 1 5 2 3
#2: 1 5 3 4
#3: 1 5 4 5
#4: 2 3 2 3
#5: 3 4 2 3
#6: 3 4 3 4
答案 1 :(得分:6)
library(data.table)
DT <- as.data.table(df)
DT[, rep(time, time-2), case][, begin := 2:(.N+1), case][, end := begin +1][]
# case V1 begin end
#1: 1 5 2 3
#2: 1 5 3 4
#3: 1 5 4 5
#4: 2 3 2 3
#5: 3 4 2 3
#6: 3 4 3 4