将所有重复观察与单身分开(300K观察)

时间:2017-06-01 17:35:36

标签: r function duplicates dplyr

我目前正在使用大型数据集。我正在看水RightID#并尝试将所有重复项与单一权利分开。重复权利的处理方式与单一权利不同。我正在使用dplyr包并且到目前为止已经写出了以下脚本。

# Change data to a tibble
tbl.all.rights <- tbl_df(rights$RightID)

# filter through duplicate rightIDs
# creates a new data frame with T for duplicate and F for non duplicate. 
log.dup <- data.frame(as.numeric(duplicated(tbl.all.rights)))
log.dup$RightID <- tbl.all.rights$value`

但是,复制函数返回第一个副本的FALSE值,因为函数通过向量的顺序。

>  e.g.) Duplicate  RightId
>               0      1000
>               0       999
>               1       999
>               1       999

我想在自己的数据库中保留重复的权限。我正在考虑编写自己的函数来捕获第一个副本,并将其与sapply结合使用。但是,我在编写该功能时遇到了麻烦。任何指导将不胜感激

0 个答案:

没有答案