使用3个条件识别重复项

时间:2016-03-18 21:00:25

标签: r duplicates

我是R.的新手。我必须根据以下标准编写一些代码来清除可能的重复实验室记录。 我希望有人可以在dplyr给我一些关于如何做到这一点的帮助?我知道R中有一个重复的函数,并且lubridate包中还有一个日期函数,可以很容易地定义日期差异。

清理规则如下:

  1. 如果收集日期距离上一个收集日期 6个月且类型为“相同”,则删除具有较晚收集日期的记录

  2. 如果收集日期距离上一个收集日期 6个月且类型为“不同”,则保留两个记录。

    < / LI>
  3. 如果收集日期<6个月内 ,并且一条记录具有噬菌体类型而另一条记录具有NA噬菌体类型,则删除记录NA噬菌体类型在6个月内。

  4. 我想创建一个名为“要删除的标记”的新列,以标记应删除的记录,以便我们在删除这些记录之前进行检查。

    这是一个数据集。有5个客户端有重复记录,我在数据集之后包含了预期结果。

    dat0<-read.table(text="
    ID  Collection_Date Type
    9318    5/8/2014    SE_8
    29210   2/9/2015    SE_19
    31733   10/27/2014  SE_13a
    31733   10/29/2014  SE_13a
    35463   4/14/2015   SE_13
    260717  1/7/2016    SE_8
    267125  7/15/2014   SE_8
    276105  12/11/2014  SE_13a
    276105  1/25/2015   NA
    276195  11/20/2015  SE_13a
    280415  9/21/2014   SE_8
    280957  4/28/2015   SE_22
    281839  1/6/2016    SE_13a
    281839  11/21/2016  NA
    302594  8/30/2015   SE_13a
    423090  1/2/2016    SE_13
    434579  1/10/2015   SE_13a
    438046  4/15/2015   SE_22
    438046  5/19/2015   SE_8
    438396  1/14/2016   SE_13a
    453374  2/19/2014   SE_35
    519832  1/4/2015    SE_8
    520665  8/15/2014   SE_13
    520665  10/9/2014   SE_13
    ",sep="",header=TRUE)
    

    具有重复项的5个客户的预期结果:

    31733   27-Oct-2014 SE_13a  Keep 
    31733   29-Oct-2014 SE_13a  Delete # because  the record is within 6 months and type is the same
    #-------------------
    276105  11-Dec-2014 SE_13a  Keep
    276105  25-Jan-2015 NA      Delete # because type is missing and record is within 6 months of the record above
    #-------------------
    281839  06-Jan-2016 SE_13a  Keep
    281839  21-Nov-2016 NA      Keep # because dates are more than 6 months
    #-------------------
    438046  15-Apr-2015 SE_22   Keep
    438046  19-May-2015 SE_8    Keep # because type is different even if date is within 6 months
    #-------------------
    520665  15-Aug-2014 SE_13   Keep
    520665  09-Oct-2014 SE_13   Delete
    

1 个答案:

答案 0 :(得分:-1)

你可以尝试类似下面的内容(假设一个ID大部分可以出现两次并且日期按升序排序):

dat0$Collection_Date <- as.Date(dat0$Collection_Date, "%m/%d/%Y")
library(zoo)
library(dplyr)

dat0 %>% group_by(ID) %>% 
    mutate((as.numeric(as.yearmon(Collection_Date)) 
            - lag(as.numeric(as.yearmon(Collection_Date))))*12 <= 6 
           & (lag(Type) == Type) | is.na(Type))

       ID Collection_Date   Type (as.numeric(as.yearmon(Collection_Dat...
    (int)          (date) (fctr)                                    (lgl)
1    9318      2014-05-08   SE_8                                       NA
2   29210      2015-02-09  SE_19                                       NA
3   31733      2014-10-27 SE_13a                                       NA
4   31733      2014-10-29 SE_13a                                     TRUE
5   35463      2015-04-14  SE_13                                       NA
6  260717      2016-01-07   SE_8                                       NA
7  267125      2014-07-15   SE_8                                       NA
8  276105      2014-12-11 SE_13a                                       NA
9  276105      2015-01-25     NA                                     TRUE
10 276195      2015-11-20 SE_13a                                       NA
11 280415      2014-09-21   SE_8                                       NA
12 280957      2015-04-28  SE_22                                       NA
13 281839      2016-01-06 SE_13a                                       NA
14 281839      2016-11-21     NA                                     TRUE
15 302594      2015-08-30 SE_13a                                       NA
16 423090      2016-01-02  SE_13                                       NA
17 434579      2015-01-10 SE_13a                                       NA
18 438046      2015-04-15  SE_22                                       NA
19 438046      2015-05-19   SE_8                                    FALSE
20 438396      2016-01-14 SE_13a                                       NA
21 453374      2014-02-19  SE_35                                       NA
22 519832      2015-01-04   SE_8                                       NA
23 520665      2014-08-15  SE_13                                       NA
24 520665      2014-10-09  SE_13                                     TRUE

其中TRUE表示要删除的重复行。