R dplyr选择两个单独事件之间的最小日期差异行

时间:2015-10-16 18:04:35

标签: r date grouping dplyr tidyr

我正在使用包含大约400个独特主题的数据集。对于这个例子,我只会使用两个。您可以使用以下代码生成示例数据:

set.seed(100)
library(tidyr)
library(dplyr)
Subject<-c("A","A","A","A","A","A","B","B","B","B")
Event1<-c("01/01/2001","01/01/2001","01/01/2001","01/01/2001","09/09/2001","09/09/2001","09/09/2009","09/09/2009","09/09/2009","09/09/2009")

random.dates<-function(N,sd="2001-01-01",ed="2010-01-01"){
    sd<-as.Date(sd,"%Y-%m-%d")
    ed<-as.Date(ed,"%Y-%m-%d")
    dt<-as.numeric(difftime(ed,sd))
    ev<-sort(runif(N,0,dt))
    rt<-sd+ev
}
Event1<-as.Date(Event1,"%m/%d/%Y")
Event1
Event2<-print(random.dates(10))

df<-data.frame(Subject,Event1,Event2)
df

并产生接近此输出输出的东西:

   Subject     Event1     Event2
1        A 2001-01-01 2001-05-04
2        A 2001-01-01 2001-09-24
3        A 2001-01-01 2002-10-22
4        A 2001-01-01 2003-02-25
5        A 2001-09-09 2007-07-16
6        A 2001-09-09 2008-04-06
7        B 2009-09-09 2008-07-12
8        B 2009-09-09 2008-07-24
9        B 2009-09-09 2009-04-01
10       B 2009-09-09 2009-09-11

在这种情况下,我感兴趣首先将具有独特Event1的独特主题分组,我可以轻松完成。从那里我需要为那个独特的Subject-Event1组合选择最接近Event1的Event2,我真的需要帮助。对于此示例,这些数据应分解为3个不同的记录:

   Subject     Event1     Event2
1        A 2001-01-01 2001-05-04
2        A 2001-09-09 2008-04-06
3        B 2009-09-09 2009-09-11

我已经巧妙地编写了一个解决方案,用于生成Subject-Event1组合的3条记录:

df2<-df
df2$SubEv<-paste(df2$Subject,df2$Event1)
df2$Event1<-NULL
df2$Subject<-NULL
df2$Event2<-NULL
df2<-unique(df2)
df2<-separate(df2,SubEv,c("Subject","Event1"),sep=" ")

从这里开始,我对于如何从最接近Event1的Event2的日期进行R选择感到迷茫。

我已经知道我的代码超级低效且草率(可能是因为我的方法在开始时)。我想知道如何做到这一点(老实说),如果有办法我可以做到这一点,只需要10行代码就可以成为老板。

1 个答案:

答案 0 :(得分:5)

使用dplyr:

library(dplyr)
df %>% 
     group_by(Subject, Event1) %>% 
     slice(which.min(abs(Event1 - Event2)))
#   Subject     Event1     Event2
#     (chr)     (date)     (date)
# 1       A 2001-01-01 2001-07-05
# 2       A 2001-09-09 2004-05-02
# 3       B 2009-09-09 2008-04-24

评论:

group_by可以使用多个列。

slice选择组内的行号。交替...

... %>% filter( row_number() == which.min(abs(Event1 - Event2)) )

对于平局,which.min将返回第一个min。有关详细信息,请参阅?which.min

数据:当我运行OP的代码时,我看起来像df

   Subject     Event1     Event2
1        A 2001-01-01 2001-07-05
2        A 2001-01-01 2002-07-14
3        A 2001-01-01 2003-04-27
4        A 2001-01-01 2003-10-09
5        A 2001-09-09 2004-05-02
6        A 2001-09-09 2005-03-21
7        B 2009-09-09 2005-05-10
8        B 2009-09-09 2005-12-02
9        B 2009-09-09 2005-12-21
10       B 2009-09-09 2008-04-24

这解释了为什么我的结果与OP的预期结果不完全匹配。