数据集
structure(list(x = c(1, 5, 2, 2, 4, 2, 5, 5, 4, 2, 1, 4, 3, 5,
4, 1, 2, 3, 1, 3), y = structure(c(13520, 17333, 17422, 17096,
17096, 18140, 11899, 11759, 17422, 15302, 12547, 17096, 17152,
17096, 12547, 11423, 15302, 17422, 13867, 12547), class = "Date")), row.names = c(23L,
87L, 55L, 38L, 40L, 115L, 27L, 135L, 53L, 122L, 11L, 48L, 61L,
46L, 12L, 83L, 127L, 49L, 104L, 1L), class = "data.frame")
我想找到1-4的最新日期,但要找到5的最早日期。
我可以按数字对它们进行子集化,然后运行两个单独的查询:
less_than_5 <- subset(df, x <5)
g <- setDT(less_than_5)[,.SD[which.max(y)]. keyby = x,]
然后对x == 5
执行相同操作,然后运行which.min(y)
我想知道是否可以在一行中完成整个查询,而不是将1-4和5分别设置为单独的查询。
更新:
如果每行都附有参与者ID,则其中的一些重复是可以通过keyby功能实现的。至于每个参与者,我想知道最近的日期是1:4。但是,如果它是5,那么我想知道最早的日期。
答案 0 :(得分:1)
您可以使用if
/ else
library(data.table)
setDT(df)[, if(first(x) != 5) max(y) else min(y), x]
# x V1
#1: 1 2007-12-20
#2: 5 2002-03-13
#3: 2 2019-09-01
#4: 4 2017-09-13
#5: 3 2017-09-13