Question

我目前正在使用大型数据集。我正在看水RightID＃并尝试将所有重复项与单一权利分开。重复权利的处理方式与单一权利不同。我正在使用dplyr包并且到目前为止已经写出了以下脚本。

# Change data to a tibble
tbl.all.rights <- tbl_df(rights$RightID)

# filter through duplicate rightIDs
# creates a new data frame with T for duplicate and F for non duplicate. 
log.dup <- data.frame(as.numeric(duplicated(tbl.all.rights)))
log.dup$RightID <- tbl.all.rights$value`

但是，复制函数返回第一个副本的FALSE值，因为函数通过向量的顺序。

>  e.g.) Duplicate  RightId
>               0      1000
>               0       999
>               1       999
>               1       999

我想在自己的数据库中保留重复的权限。我正在考虑编写自己的函数来捕获第一个副本，并将其与sapply结合使用。但是，我在编写该功能时遇到了麻烦。任何指导将不胜感激

将所有重复观察与单身分开（300K观察）

0 个答案: