我正在努力找到一种快速的方法来执行以下操作:
这是一个可重现的例子
library(data.table)
dt <- data.table(rep(seq.int(2000,2010,1),30), runif(330,0,5))
colnames(dt) <- c("year","response") # Ignore warning
quarts <- function(x) {
quantile(x, probs = seq(0.25,0.75,0.25),na.rm=T, names=T)
}
setkey(dt, year)
a <- data.table(dt[,quarts(response), by = key(dt)])
现在,data.table a
包含每年dt$response
所需的四分位数值。
我现在需要做的是将dt$response
的值与a
中的四分位值进行比较,然后创建一个新的变量dt$quartresponse
dt$response[i]
小于该特定年份的0.25四分位数值,则为0 dt$response[i]
介于特定年份的0.25到0.5四分位数值之间,则为值dt$response[i]
介于该特定年份的0.50和0.75四分位数值之间,则为值我确定某种循环可行,但必须有一种更像R的解决方法。
欢迎任何建议!
西蒙
答案 0 :(得分:2)
在加入“广泛”格式的'a',即'a1'与'dt'
后,您可以使用cut
为每个'年'创建rank
分组
library(data.table) #data.table_1.9.5
a1 <- dcast(a[, ind:=paste0('Quart',1:3)], year~ind, value.var='V1')
res <- setkey(a1, year)[dt][, quartresponse:=cut(response,
breaks=c(-Inf,Quart1[1L], Quart2[1L], Quart3[1L],Inf),
labels=FALSE)-1, by=year][, 2:4 := NULL]
head(res,5)
# year response quartresponse
#1: 2000 4.959491 3
#2: 2000 2.522881 2
#3: 2000 4.465005 3
#4: 2000 0.5421316 0
#5: 2000 2.2328381 1
head(a1,3)
# year Quart1 Quart2 Quart3
#1: 2000 1.703482 2.325766 3.867453
#2: 2001 1.395815 1.972565 3.286358
#3: 2002 1.469664 2.151403 3.359189