我是R.的新手。我必须根据以下标准编写一些代码来清除可能的重复实验室记录。
我希望有人可以在dplyr
给我一些关于如何做到这一点的帮助?我知道R中有一个重复的函数,并且lubridate
包中还有一个日期函数,可以很容易地定义日期差异。
清理规则如下:
如果收集日期距离上一个收集日期 6个月且类型为“相同”,则删除具有较晚收集日期的记录
如果收集日期距离上一个收集日期 6个月且类型为“不同”,则保留两个记录。
< / LI>如果收集日期<6个月内 ,并且一条记录具有噬菌体类型而另一条记录具有NA噬菌体类型,则删除记录NA噬菌体类型在6个月内。
我想创建一个名为“要删除的标记”的新列,以标记应删除的记录,以便我们在删除这些记录之前进行检查。
这是一个数据集。有5个客户端有重复记录,我在数据集之后包含了预期结果。
dat0<-read.table(text="
ID Collection_Date Type
9318 5/8/2014 SE_8
29210 2/9/2015 SE_19
31733 10/27/2014 SE_13a
31733 10/29/2014 SE_13a
35463 4/14/2015 SE_13
260717 1/7/2016 SE_8
267125 7/15/2014 SE_8
276105 12/11/2014 SE_13a
276105 1/25/2015 NA
276195 11/20/2015 SE_13a
280415 9/21/2014 SE_8
280957 4/28/2015 SE_22
281839 1/6/2016 SE_13a
281839 11/21/2016 NA
302594 8/30/2015 SE_13a
423090 1/2/2016 SE_13
434579 1/10/2015 SE_13a
438046 4/15/2015 SE_22
438046 5/19/2015 SE_8
438396 1/14/2016 SE_13a
453374 2/19/2014 SE_35
519832 1/4/2015 SE_8
520665 8/15/2014 SE_13
520665 10/9/2014 SE_13
",sep="",header=TRUE)
具有重复项的5个客户的预期结果:
31733 27-Oct-2014 SE_13a Keep
31733 29-Oct-2014 SE_13a Delete # because the record is within 6 months and type is the same
#-------------------
276105 11-Dec-2014 SE_13a Keep
276105 25-Jan-2015 NA Delete # because type is missing and record is within 6 months of the record above
#-------------------
281839 06-Jan-2016 SE_13a Keep
281839 21-Nov-2016 NA Keep # because dates are more than 6 months
#-------------------
438046 15-Apr-2015 SE_22 Keep
438046 19-May-2015 SE_8 Keep # because type is different even if date is within 6 months
#-------------------
520665 15-Aug-2014 SE_13 Keep
520665 09-Oct-2014 SE_13 Delete
答案 0 :(得分:-1)
你可以尝试类似下面的内容(假设一个ID大部分可以出现两次并且日期按升序排序):
dat0$Collection_Date <- as.Date(dat0$Collection_Date, "%m/%d/%Y")
library(zoo)
library(dplyr)
dat0 %>% group_by(ID) %>%
mutate((as.numeric(as.yearmon(Collection_Date))
- lag(as.numeric(as.yearmon(Collection_Date))))*12 <= 6
& (lag(Type) == Type) | is.na(Type))
ID Collection_Date Type (as.numeric(as.yearmon(Collection_Dat...
(int) (date) (fctr) (lgl)
1 9318 2014-05-08 SE_8 NA
2 29210 2015-02-09 SE_19 NA
3 31733 2014-10-27 SE_13a NA
4 31733 2014-10-29 SE_13a TRUE
5 35463 2015-04-14 SE_13 NA
6 260717 2016-01-07 SE_8 NA
7 267125 2014-07-15 SE_8 NA
8 276105 2014-12-11 SE_13a NA
9 276105 2015-01-25 NA TRUE
10 276195 2015-11-20 SE_13a NA
11 280415 2014-09-21 SE_8 NA
12 280957 2015-04-28 SE_22 NA
13 281839 2016-01-06 SE_13a NA
14 281839 2016-11-21 NA TRUE
15 302594 2015-08-30 SE_13a NA
16 423090 2016-01-02 SE_13 NA
17 434579 2015-01-10 SE_13a NA
18 438046 2015-04-15 SE_22 NA
19 438046 2015-05-19 SE_8 FALSE
20 438396 2016-01-14 SE_13a NA
21 453374 2014-02-19 SE_35 NA
22 519832 2015-01-04 SE_8 NA
23 520665 2014-08-15 SE_13 NA
24 520665 2014-10-09 SE_13 TRUE
其中TRUE
表示要删除的重复行。