仅保留数据框中每个ID的最新日期

时间:2015-05-05 16:42:26

标签: r date

我在R中有一个数据框,其中行代表事件,一列是事件的日期。事件发生的事情由ID列描述。因此,对于每个ID,都有多个条目。

如何过滤数据框,以便仅保留每个ID的最新事件? ID是整数,日期的格式为mm/dd/yyyy

5 个答案:

答案 0 :(得分:12)

你可以尝试

\[...\]

数据

library(dplyr)
df %>% 
  group_by(ID) %>%
  slice(which.max(as.Date(date, '%m/%d/%Y')))

答案 1 :(得分:5)

对于任何解决方案,您最好先校正日期变量,如@akrun所示:

df$date <- as.Date(df$date, '%m/%d/%Y')

基础R

df[
  tapply(1:nrow(df),df$ID,function(ii) ii[which.max(df$date[ii])])
,]

这使用选择的行号来对数据进行子集化。您可以通过单独运行中间线([]之间)来查看选择。

<强> Data.table

类似于@ rawr&#39;:

require(data.table)
DT <- data.table(df)

unique(DT[order(date)], by="ID", fromLast=TRUE)
# or
unique(DT[order(-date)], by="ID")

答案 2 :(得分:3)

或者您可以订购日期和

<script>
$(function() {
   $('a.link').click(function() {
       $('a.link').removeClass('active');
       $(this).addClass('active');
   });
});
</script>

1)选择最后一个

df <- data.frame(ID= rep(1:3, each=3), date=c('02/20/1989',
                                              '03/14/2001', '02/25/1990',  '04/20/2002', '02/04/2005', '02/01/2008',
                                              '08/22/2011','08/20/2009', '08/25/2010' ), stringsAsFactors=FALSE)

df$date <- as.Date(df$date, '%m/%d/%Y')

## make sure to order by both `ID` and `date` as Frank mentions in comments
## since the dates may be overlapping among IDs

df <- df[with(df, order(ID, date)), ]

2)或删除重复项

df[cumsum(table(df$ID)), ]

#   ID       date
# 2  1 2001-03-14
# 6  2 2008-02-01
# 7  3 2011-08-22

这些数据由@akrun

提供给您

答案 3 :(得分:2)

这可能是一个角色缺陷,但我有时会拒绝接受新包裹。 “基础R”功能通常可以完成这项工作。在这种情况下,我认为dplyr包的结果显示,因为我偶然发现了一个好的解决方案,因为ave函数返回了逻辑测试的字符值,我仍然不明白。所以我认为dplyr是一个真正的宝石。如果我可以,我想坚持任何一个赞成之前,先得到akrun的回答。 (很难相信这还没有被问过并在SO上得到解答。)

反正:

> df[ as.logical(
        ave(df$date, df$ID, FUN=function(d) as.Date(d , '%m/%d/%Y') == 
                                             max(as.Date(d, '%m/%d/%Y'))))
      , ]
  ID       date
2  1 03/14/2001
6  2 02/01/2008
7  3 08/22/2011

我认为这应该有效(失败):

> df[ ave(df$date, df$ID, FUN=function(d) as.Date(d , '%m/%d/%Y') ==max(as.Date(d, '%m/%d/%Y'))) , ]
     ID date
NA   NA <NA>
NA.1 NA <NA>
NA.2 NA <NA>
NA.3 NA <NA>
NA.4 NA <NA>
NA.5 NA <NA>
NA.6 NA <NA>
NA.7 NA <NA>
NA.8 NA <NA>

这是另一个基本的R解决方案,第一次工作没有任何意外:

> do.call( rbind, by(df, df$ID, function(d) d[ which.max(as.Date(d$date, '%m/%d/%Y')), ] ) )
  ID       date
1  1 03/14/2001
2  2 02/01/2008
3  3 08/22/2011

这是一个受@ rawr关于从有序子集中取出最后一个概念的启发:

> do.call( rbind, by(df, df$ID, function(d) tail( d[ order(as.Date(d$date, '%m/%d/%Y')), ] ,1)) )
  ID       date
1  1 03/14/2001
2  2 02/01/2008
3  3 08/22/2011

答案 4 :(得分:0)

我从未在没有plyr的情况下处理R中的任何数据!

library(plyr)
ddply(df, .(ID), summarize, most_recent = max(as.Date(date, '%m/%d/%Y')))

   ID most_recent
1  1  2001-03-14
2  2  2008-02-01
3  3  2011-08-22