Question

R中复制的函数执行重复行搜索。如果我们想要删除重复项，我们只需要编写df[!duplicated(df),]，并且将从数据框中删除重复项。

但是如何找到重复数据的索引？如果duplicated在某行上返回TRUE，则表示这是数据帧中第二次出现这样的行，并且可以轻松获得其索引。如何获得该行首次出现的索引？或者，换句话说，重复行与之相同的索引？

我可以在data.frame上进行循环，但我认为这个问题有一个更优雅的答案。

Answer 1

返回逻辑索引向量：

duplicated(df) | duplicated(df[nrow(df):1, ])[nrow(df):1]

以下是一个例子：

df <- data.frame(a = c(1,2,3,4,1,5,6,4,2,1))

duplicated(df) | duplicated(df[nrow(df):1, ])[nrow(df):1]
#[1]  TRUE  TRUE FALSE  TRUE  TRUE FALSE FALSE  TRUE  TRUE  TRUE

which(duplicated(df) | duplicated(df[nrow(df):1, ])[nrow(df):1])
#[1]  1  2  4  5  8  9 10

更新（根据评论）：
如果fromLast = TRUE用作函数参数，则可以减少命令的复杂性。这比创建两个反向向量更容易。

duplicated(df) | duplicated(df, fromLast = TRUE)

duplicated(df) | duplicated(df, fromLast = TRUE)
#[1]  TRUE  TRUE FALSE  TRUE  TRUE FALSE FALSE  TRUE  TRUE  TRUE

它是如何工作的？

函数duplicated应用于原始数据框和具有相反行顺序的数据框。后者的输出再次逆转。请注意，原始数据中第一次出现的重复值是反转版本中的最后一次出现。之后，使用|合并两个向量，因为其中至少有一个TRUE表示重复值。

Answer 2

如果您使用键控 data.table，那么您可以使用以下优雅语法

library(data.table)
DT <- data.table(A = rep(1:3, each=4), 
                 B = rep(1:4, each=3), 
                 C = rep(1:2, 6), key = "A,B,C")

DT[unique(DT[duplicated(DT)]),which=T]

解压缩

DT[duplicated(DT)]子集那些重复的行。
unique(...)仅返回重复行的唯一组合。这涉及任何超过1个重复的案例（重复重复，例如重复等）
DT[..., which = T]将重复的行与原始行合并，which=T返回行号（没有which = T它只会返回数据）。

您也可以使用

 DT[,count := .N,by = list(A,B,C)][count>1, which=T]

查找重复行的索引

2 个答案:

它是如何工作的？