Question

我有一个data.frame，它有许多重复的行，类似于这样：

con <- textConnection(Lines <- "
First, Last, Address, Address 2, Email, Custom1, Custom2, Custom3
A, B, C, D, F@G.com,1,2,3
A, B, C, D, F@G.com,1,2,2
A, B, C, D, F@G.com,1,2,1
")
x <- read.csv(con)
close(con)

现在，当我以下列方式重复删除时：

x <- x[!duplicated(x[,c("email")]),]

您是否可以推荐一种方法来确定包含Custom3 = 1的行的优先级？或者是否有更好的重复数据删除机制？

Answer 1

在找到重复项之前尝试排序：

x < - x [order（x [，c（“Custom3”）]），]
x＆lt; - x [！duplicated（x [，c（“email”）]），]

基于优先级/决策的行选择

1 个答案: