Question

所以我一直在玩R中的数据框，虽然我在Python中仍然在想太多，但似乎找不到解决我问题的方法。

我有一个数据框，其中一列是用户ID。我想删除所有第一次出现的数字，例如：

1,2,3,4,3,4,2,1,3,4,6,7,7

我想有这样的输出：

 3,4,2,1,3,4,7

第一次出现user_id时，我会删除它，但即使重复也要保留所有其他内容。

使用python我可能会使用枚举或循环它。对于R，我看到一些看似很酷的函数，但我不确定如何将它与数据框一起使用，如rle。

任何指针都会非常有用，因为我现在对这个问题的最佳方法有点迷茫。

谢谢大家

Answer 1

函数duplicated()在这里会有所帮助：

x <- c(1,2,3,4,3,4,2,1,3,4,6,7,7)
> x[duplicated(x)]
[1] 3 4 2 1 3 4 7

这是有效的，因为duplicated()返回一个逻辑向量，指示该元素是否重复：

duplicated(x)
 [1] FALSE FALSE FALSE FALSE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE FALSE  TRUE

然后使用此逻辑向量从x中对所需的值进行子集化（提取）。但请注意，在提取中我保留所有重复的值，而不是删除它们。

要删除所有重复的值（不是你想要的，但无论如何都要说明），试试否定：

x[!duplicated(x)]
[1] 1 2 3 4 6 7