我有一个数据框,其中包含患者死亡的时间。
看起来像这样
Time Alive Died Lost
0 375 0 2
0.0668 373 1 9
0.3265 363 2 12
0.6439 349 0 6
0.7978 343 2 1
0.8363 340 2 2
0.8844 336 2 0
0.894 334 3 2
0.9325 329 4 0
0.9517 325 4 1
我想创建一个函数,它将检查两行之间的时间是否小于阈值。
如果说t2-t1 <阈值,则它将记录在该间隔中有多少人死亡,在该间隔中有多少人丧生,并记录下来。然后,它将给出一个间隔大于阈值的数据帧,并添加相应的数字。
说我的门槛是否为0.29 将删除第二行,记录其中1人死亡,9人丢失,并将其添加到第一行的“死亡/损失”列
看起来像
Time Alive Died Lost
0 375 1 11
0.3265 363 2 12
0.6439 349 0 6
...
我已经写了一些东西,但是如果必须添加多行,它将失败。 有效执行此操作的最佳方法是什么?
编辑
aggregateTimes <- function(data, threshold = 0.04){
indices <- (diff(data[,1]) < threshold)
indices <- c(FALSE, indices)
for(i in 1:(nrow(data)-1)){
row1 <- data[i, ]
row2 <- data[i+1, ]
if((row2[,1] - row1[,1]) < threshold){
newrow <- row1 + c(0,0, row2[, 3:4])
data[i,] <- newrow
data <- data[-(i+1),]
}
}
return(data)
}
但是索引失败是因为数据的维数减少了?
要回答@Moody_Mudskipper
Time Alive Died Lost
0 375 1 11
0.3265 363 2 12
0.6439 349 13 11
0.9517 325 4 1
答案 0 :(得分:0)
不知道这是否正是您想要的,但这会将所有条目按0.29个时间间隔分组:
require(data.table)
setDT(d)
d[, tt := floor(Time/0.29)]
d[, `:=`(newTime = first(Time), Alive = first(Alive)), keyby = tt]
d[, lapply(.SD, sum), by = .(newTime, Alive), .SDcols = c('Died', 'Lost')]
# newTime Alive Died Lost
# 1: 0.0000 375 1 11
# 2: 0.3265 363 2 12
# 3: 0.6439 349 4 9
# 4: 0.8844 336 13 3
或更精确地说:
# create newTime indikator
newTimes <- d$Time
while(any(diff(newTimes) < 0.29)){
i <- diff(newTimes) < 0.29
i <- which(i)[1] + 1L
newTimes <- newTimes[-i]
}
newTimes
# [1] 0.0000 0.3265 0.6439 0.9517
d[, tt := cumsum(Time %in% newTimes)] #grouping id
# adds new columns by grouping id (tt):
d[, `:=`(newTime = first(Time), Alive = first(Alive)), keyby = tt]
# sums Died and Lost by groups:
d[, lapply(.SD, sum), by = .(newTime, Alive), .SDcols = c('Died', 'Lost')]
# newTime Alive Died Lost
# 1: 0.0000 375 1 11
# 2: 0.3265 363 2 12
# 3: 0.6439 349 13 11
# 4: 0.9517 325 4 1