用r识别并保留重复项

时间:2019-07-09 21:11:18

标签: r dplyr duplicates concatenation identify

仅在r中标识并保留具有重复元素的行

我有一个带有20多个列的大df,我需要标识并保留指定列中具有重复元素的行。我的方法是创建两个新列。第一列将是串联的元素。第二列是一个二进制,告诉我第一列中的数据是否重复。我的df看起来像这样:

enter image description here

我尝试的第一列:

res1 <-mutate(Prac_df, Con_cat =apply(Prac_df[order(PIn, Age, Sex),], 1, function(x) paste0(x, collapse = "_")))

我认为这没有用,我不确定如何创建第二列,我将需要运行逻辑回归。

在添加两列之后,它看起来像这样: enter image description here

1 个答案:

答案 0 :(得分:0)

尝试一下:

library(dplyr)

res1 <- Prac_df %>%  
  group_by(PIN, Age, Sex) %>% 
  mutate(isDuplicated = row_number() > 1) %>% 
  ungroup()