Question

数据集

structure(list(x = c(1, 5, 2, 2, 4, 2, 5, 5, 4, 2, 1, 4, 3, 5, 
4, 1, 2, 3, 1, 3), y = structure(c(13520, 17333, 17422, 17096, 
17096, 18140, 11899, 11759, 17422, 15302, 12547, 17096, 17152, 
17096, 12547, 11423, 15302, 17422, 13867, 12547), class = "Date")), row.names = c(23L, 
87L, 55L, 38L, 40L, 115L, 27L, 135L, 53L, 122L, 11L, 48L, 61L, 
46L, 12L, 83L, 127L, 49L, 104L, 1L), class = "data.frame")

我想找到1-4的最新日期，但要找到5的最早日期。

我可以按数字对它们进行子集化，然后运行两个单独的查询：

less_than_5 <- subset(df, x <5)
g <- setDT(less_than_5)[,.SD[which.max(y)]. keyby = x,]

然后对x == 5执行相同操作，然后运行which.min(y)

我想知道是否可以在一行中完成整个查询，而不是将1-4和5分别设置为单独的查询。

更新：

如果每行都附有参与者ID，则其中的一些重复是可以通过keyby功能实现的。至于每个参与者，我想知道最近的日期是1：4。但是，如果它是5，那么我想知道最早的日期。

Answer 1

您可以使用if / else

library(data.table)
setDT(df)[, if(first(x) != 5) max(y) else min(y), x]

#   x         V1
#1: 1 2007-12-20
#2: 5 2002-03-13
#3: 2 2019-09-01
#4: 4 2017-09-13
#5: 3 2017-09-13

根据R中的ID列选择最早的日期和最晚的日期

1 个答案: