我有一个data.frame,它有许多重复的行,类似于这样:
con <- textConnection(Lines <- "
First, Last, Address, Address 2, Email, Custom1, Custom2, Custom3
A, B, C, D, F@G.com,1,2,3
A, B, C, D, F@G.com,1,2,2
A, B, C, D, F@G.com,1,2,1
")
x <- read.csv(con)
close(con)
现在,当我以下列方式重复删除时:
x <- x[!duplicated(x[,c("email")]),]
您是否可以推荐一种方法来确定包含Custom3 = 1的行的优先级?或者是否有更好的重复数据删除机制?
答案 0 :(得分:1)
在找到重复项之前尝试排序:
x < - x [order(x [,c(“Custom3”)]),]
x&lt; - x [!duplicated(x [,c(“email”)]),]