Question

仅在r中标识并保留具有重复元素的行

我有一个带有20多个列的大df，我需要标识并保留指定列中具有重复元素的行。我的方法是创建两个新列。第一列将是串联的元素。第二列是一个二进制，告诉我第一列中的数据是否重复。我的df看起来像这样：

我尝试的第一列：

res1 <-mutate(Prac_df, Con_cat =apply(Prac_df[order(PIn, Age, Sex),], 1, function(x) paste0(x, collapse = "_")))

我认为这没有用，我不确定如何创建第二列，我将需要运行逻辑回归。

在添加两列之后，它看起来像这样：

Answer 1

尝试一下：

library(dplyr)

res1 <- Prac_df %>%  
  group_by(PIN, Age, Sex) %>% 
  mutate(isDuplicated = row_number() > 1) %>% 
  ungroup()