仅在r中标识并保留具有重复元素的行
我有一个带有20多个列的大df,我需要标识并保留指定列中具有重复元素的行。我的方法是创建两个新列。第一列将是串联的元素。第二列是一个二进制,告诉我第一列中的数据是否重复。我的df看起来像这样:
我尝试的第一列:
res1 <-mutate(Prac_df, Con_cat =apply(Prac_df[order(PIn, Age, Sex),], 1, function(x) paste0(x, collapse = "_")))
我认为这没有用,我不确定如何创建第二列,我将需要运行逻辑回归。
答案 0 :(得分:0)
尝试一下:
library(dplyr)
res1 <- Prac_df %>%
group_by(PIN, Age, Sex) %>%
mutate(isDuplicated = row_number() > 1) %>%
ungroup()