Question

我有多个数据集，其中一个数据集中有一个标识个人的变量，我将其称为ID。我试图找出哪些ID出现在所有数据集中以便修剪我的数据。这样做的最佳方法是什么？有些数据有超过一百万行，所以我需要一种非常有效的方法来过滤我的数据。

谢谢。

Answer 1

如果您调用数据集dat1，dat2，dat3，并且每个数据集中的ID列都称为ID，则可以使用此方法：

commonIDs <- Reduce(intersect, list(dat1$ID, dat2$ID, dat3$ID))

Answer 2

使用dplyr

filter(your_data_frame, id == 1, id2 == "name")