在R中不同列的部分匹配上进行data.table合并

时间:2018-08-21 06:20:22

标签: r merge data.table matching partial

这个问题可能之前曾被问过,但我正在寻找一个不使用其他软件包的data.table解决方案。我有一个data.table DT1作为参考:

> require(data.table)
> DT1 <- data.table(col1 = c("AA", "BA", "ABC", "ABC BC", "AB")
                  , col2 = c(1,4,5,3,2))
> DT1
     col1 col2
1:     AA    1
2:     BA    4
3:    ABC    5
4: ABC BC    3
5:     AB    2

并且我想基于DT1中col1和DT2中col2的部分匹配,将第二个数据表DT2与DT1合并,在DT2中创建col3。

> DT2 <- data.table(col1 = c(0,5,2,7,1,0)
                  , col2 = c("BA", "ABC", "DC", "AA", "AB", "R AB"))
> DT2
   col1 col2
1:    0   BA
2:    5  ABC
3:    2   DC
4:    7   AA
5:    1   AB
6:    0  R AB

所需的输出

 > desired_output <- data.table(col1 = c(0,5,5,2,7,1,1,1,0)
                                 , col2 = c("BA", "ABC", "ABC", "DC", "AA",  "AB", "AB", "AB", "R AB")
                                 , col3 = c(4,5,3,NA,1,5,3,2,2))
> desired_output
   col1 col2 col3
1:    0   BA    4
2:    5  ABC    5
3:    5  ABC    3
4:    2   DC   NA
5:    7   AA    1
6:    1   AB    5
7:    1   AB    3
8:    1   AB    2
9:    0  R AB   2

是否有使用data.table操作完成此操作的合适方法?如果不是,那么很乐意考虑其他解决方案。这将在非常大的数据集上运行。


编辑:指定部分匹配的条件,如果DT1中的col1字符串是DT2中col2字符串的子集,反之亦然(DT2中的col2字符串是以下字符串的子集),则为匹配DT1中的col1)。两种方式的grepl?

col1/DT1    col2/DT2
  "AB"       "There is ABhere"    # it's a match
  "ABC"      "someABC"            # it's a match
  "ABC BC"   "ABC"                # it's a reverse match
  "DR"       "ADD"                # no match
  "BA"       "HABAHA"             # two matches

1 个答案:

答案 0 :(得分:1)

鉴于问题的严重性(DT1 [(1:50,000),(1:25)]-DT2 [(1:50,000,000),(1:55)]),执行CJ可能不可行进行双向grepl之前的ID。

打破不同的匹配/近似值。匹配,我们可以1)首先寻找完全匹配,2)然后大约。匹配在DT2中可以找到DT1中子字符串的地方,然后3)反之亦然。

最后,我们对所有结果进行行绑定,并在原始DT2和行绑定结果之间进行左连接,以获得所需的输出。

exactMatches <- DT1[DT2, on=c("ID1"="ID2"), nomatch=0L][,
    ID2 := ID1]

substr1in2 <- DT2[, c(.SD, DT1[grepl(ID2, ID1) & ID1 != ID2]), 
    by=1:DT2[,.N]][!is.na(VAL1), -1L]

substr2in1 <- DT1[, c(.SD, DT2[grepl(ID1, ID2) & ID2 != ID1]), 
    by=1:DT1[,.N]][!is.na(VAL2), -1L]

binded <- rbindlist(list(exactMatches, substr1in2, substr2in1), 
    use.names=TRUE, fill=TRUE)

binded[DT2, on=.(ID2, VAL2)]

输出:

       ID1 VAL1 VAL2  ID2
 1:     BA    4    0   BA
 2:    ABC    5    5  ABC
 3: ABC BC    3    5  ABC
 4:     AB    2    5  ABC
 5:   <NA>   NA    2   DC
 6:     AA    1    7   AA
 7:     AB    2    1   AB
 8:    ABC    5    1   AB
 9: ABC BC    3    1   AB
10:     AB    2    0 R AB

我更改了一些列名称,以使代码更具可读性。数据:

DT1 <- data.table(ID1 = c("AA", "BA", "ABC", "ABC BC", "AB"), 
    VAL1 = c(1,4,5,3,2))

DT2 <- data.table(VAL2 = c(0,5,2,7,1,0),
    ID2 = c("BA", "ABC", "DC", "AA", "AB", "R AB"))