通过R中的另一个数据集过滤数据集

时间:2015-05-06 04:14:17

标签: r dataframe subset

我想要完成的任务实际上是通过“id”列中的条目按照另一个数据集中的条目过滤一个数据集。我正在使用的数据集非常庞大,包含数万个条目和30个左右的变量。我制作了玩具数据集来帮助解释我想要做什么。

第一个数据集包含一个条目列表,每个条目都有自己唯一的入藏号(这是id)。

Data1 = data.frame(accession_number = c('a','b','c','d','e','f'), values =c('1','3','4','2','3','12'))
>Data1
      accession_number values
1                a      1
2                b      3
3                c      4
4                d      2
5                e      3
6                f     12

我只对登录号为“c”,“d”和“e”的条目感兴趣。 (实际上,虽然我的列表大约有100个唯一的入藏号码)。接下来,我创建了一个只有唯一入藏号而没有其他值的数据框。

>SubsetData1
  accession_number
1                c
2                d
3                e

我想要过滤的第二个数据集包含多个具有相同入藏号的条目。

>Data2
   accession_number values  Intensity col4       col6
1                 a      1 -0.0251304    a -0.4816370
2                 a      2 -0.4308735    b -1.0335971
3                 c      3 -1.9001321    c  0.6416735
4                 c      4  0.1163934    d -0.4489048
5                 c      5  0.7586820    e  0.5408650
6                 b      6  0.4294415    f  0.6828412
7                 b      7 -0.8045201    g  0.6677730
8                 b      8 -0.9898947    h  0.3948412
9                 c      9 -0.6004642    i -0.3323932
10                c     10  1.1367578    j  0.9151915
11                c     11  0.7084980    k -0.3424039
12                c     12 -0.9618102    l  0.2386307
13                c     13  0.2693441    m -1.3861064
14                d     14  1.6059971    n  1.3801924
15                e     15  2.4166472    o -1.1806929
16                e     16 -0.7834619    p  0.1880451
17                e     17  1.3856535    q -0.7826357
18                f     18 -0.6660976    r  0.6159731
19                f     19  0.2089186    s -0.8222399
20                f     20 -1.5809582    t  1.5567113
21                f     21  0.3610700    u  0.3264431
22                f     22  1.2923324    v  0.9636267

我要做的是将第一个数据集(SubsetData1)的子集列表与第二个数据集(Data2)进行比较,以创建仅包含在子集列表中定义的相同入藏号的条目的过滤数据集。过滤后的数据集看起来应该是这样的。

   accession_number values  Intensity col4       col6
9                 c      9 -0.6004642    i -0.3323932
10                c     10  1.1367578    j  0.9151915
11                c     11  0.7084980    k -0.3424039
12                c     12 -0.9618102    l  0.2386307
13                c     13  0.2693441    m -1.3861064
14                d     14  1.6059971    n  1.3801924
15                e     15  2.4166472    o -1.1806929
16                e     16 -0.7834619    p  0.1880451
17                e     17  1.3856535    q -0.7826357

我不知道是否需要开始制作循环以解决此问题,或者是否有一个简单的R命令可以帮助我完成此任务。非常感谢任何帮助。

谢谢

4 个答案:

答案 0 :(得分:4)

试试这个

WantedData=Data2[Data2$ccession_number %in% SubsetData1$accession_number, ]

答案 1 :(得分:1)

subset函数专为基本子集设计:

subset(Data2,accession_number %in% SubsetData1$accession_number)

或者,您可以merge

merge(Data2,SubsetData1)

答案 2 :(得分:1)

您也可以使用 inner_joindplyr 包。

dat = inter_join(Data2, SubsetData1)

答案 3 :(得分:0)

其他解决方案似乎很好,但我喜欢dplyr的可读性,所以这里是dplyr解决方案。

library(dplyr)
new_dataset <- Data2 %>%
    filter(accession_number %in% SubsetData1$accession_number)