这个问题可能之前曾被问过,但我正在寻找一个不使用其他软件包的data.table解决方案。我有一个data.table DT1作为参考:
> require(data.table)
> DT1 <- data.table(col1 = c("AA", "BA", "ABC", "ABC BC", "AB")
, col2 = c(1,4,5,3,2))
> DT1
col1 col2
1: AA 1
2: BA 4
3: ABC 5
4: ABC BC 3
5: AB 2
并且我想基于DT1中col1和DT2中col2的部分匹配,将第二个数据表DT2与DT1合并,在DT2中创建col3。
> DT2 <- data.table(col1 = c(0,5,2,7,1,0)
, col2 = c("BA", "ABC", "DC", "AA", "AB", "R AB"))
> DT2
col1 col2
1: 0 BA
2: 5 ABC
3: 2 DC
4: 7 AA
5: 1 AB
6: 0 R AB
所需的输出
> desired_output <- data.table(col1 = c(0,5,5,2,7,1,1,1,0)
, col2 = c("BA", "ABC", "ABC", "DC", "AA", "AB", "AB", "AB", "R AB")
, col3 = c(4,5,3,NA,1,5,3,2,2))
> desired_output
col1 col2 col3
1: 0 BA 4
2: 5 ABC 5
3: 5 ABC 3
4: 2 DC NA
5: 7 AA 1
6: 1 AB 5
7: 1 AB 3
8: 1 AB 2
9: 0 R AB 2
是否有使用data.table操作完成此操作的合适方法?如果不是,那么很乐意考虑其他解决方案。这将在非常大的数据集上运行。
编辑:指定部分匹配的条件,如果DT1中的col1字符串是DT2中col2字符串的子集,反之亦然(DT2中的col2字符串是以下字符串的子集),则为匹配DT1中的col1)。两种方式的grepl?
col1/DT1 col2/DT2
"AB" "There is ABhere" # it's a match
"ABC" "someABC" # it's a match
"ABC BC" "ABC" # it's a reverse match
"DR" "ADD" # no match
"BA" "HABAHA" # two matches
答案 0 :(得分:1)
鉴于问题的严重性(DT1 [(1:50,000),(1:25)]-DT2 [(1:50,000,000),(1:55)]),执行CJ可能不可行进行双向grepl
之前的ID。
打破不同的匹配/近似值。匹配,我们可以1)首先寻找完全匹配,2)然后大约。匹配在DT2中可以找到DT1中子字符串的地方,然后3)反之亦然。
最后,我们对所有结果进行行绑定,并在原始DT2和行绑定结果之间进行左连接,以获得所需的输出。
exactMatches <- DT1[DT2, on=c("ID1"="ID2"), nomatch=0L][,
ID2 := ID1]
substr1in2 <- DT2[, c(.SD, DT1[grepl(ID2, ID1) & ID1 != ID2]),
by=1:DT2[,.N]][!is.na(VAL1), -1L]
substr2in1 <- DT1[, c(.SD, DT2[grepl(ID1, ID2) & ID2 != ID1]),
by=1:DT1[,.N]][!is.na(VAL2), -1L]
binded <- rbindlist(list(exactMatches, substr1in2, substr2in1),
use.names=TRUE, fill=TRUE)
binded[DT2, on=.(ID2, VAL2)]
输出:
ID1 VAL1 VAL2 ID2
1: BA 4 0 BA
2: ABC 5 5 ABC
3: ABC BC 3 5 ABC
4: AB 2 5 ABC
5: <NA> NA 2 DC
6: AA 1 7 AA
7: AB 2 1 AB
8: ABC 5 1 AB
9: ABC BC 3 1 AB
10: AB 2 0 R AB
我更改了一些列名称,以使代码更具可读性。数据:
DT1 <- data.table(ID1 = c("AA", "BA", "ABC", "ABC BC", "AB"),
VAL1 = c(1,4,5,3,2))
DT2 <- data.table(VAL2 = c(0,5,2,7,1,0),
ID2 = c("BA", "ABC", "DC", "AA", "AB", "R AB"))