我想知道是否有可能根据日期值但在组内隔离重复记录。所以从本质上讲,我想要提取记录,其中给定的Title,ID和类别的日期值相同?
示例:
Title Title_ID Category Date
Title1 2728 Category 1 2013-08-09
Title1 2728 Category 2 2013-10-18
Title1 2728 Category 3 2013-11-05
Title1 2728 Category 4 2013-11-05
所需的输出:
Title Title_ID Category Date
Title1 2728 Category 3 2013-11-05
Title1 2728 Category 4 2013-11-05
有没有一种方法可以在R的漂亮软件包中完成此任务?
谢谢。
答案 0 :(得分:1)
我在评论中给您发送的两个链接一起用于此解决方案。
第一个链接显示了如何使用fromLast
参数和|
运算符组合获取所有重复的索引,而不仅仅是第一个。第二部分显示了如何检查多个列之间的重复项。因此,您要检查具有相同的Title
,Title_ID
和Date
值的行。
如果您的数据帧中有任何重复项,则最后一行代码将删除完全相同的重复项。您的示例不包含任何内容,根据您的描述我也不太清楚
ind <- duplicated(dt[,c('Title', 'Title_ID', 'Date')]) | duplicated(dt[,c('Title', 'Title_ID', 'Date')], fromLast = T)
dt2 <- dt[ind,]
dt2[!duplicated(dt2),]