在R中使用data.table,我有两个数据表。一个是我的实际数据集,另一个是查找表。
数据集:
dt <- data.table(Name = c("John", "Bob", "Sue", "Trish"), Ref = c("a", "A0", "BA", "c"))
**Name** **Ref**
John a
Bob A0
Sue BA
Trish c
查找表:
lookup <- data.table(Ref1 = c("a", "b", "c"), Ref2 = c("A0", "AA", "BA"), Value = 1:3)
**Ref1** **Ref2** **Value**
a A0 1
b aa 2
c BA 3
正如您所看到的,查找表中的每个值都有两个不同的引用。我想将Ref2值转换为Ref1,然后进行查找或直接进行所有查找。
到目前为止,我的方法是拆分dt,因此每个拆分包含每种格式的格式,然后查找值,最后是rbind。
dt1 <- dt[dt[, nchar(Ref) == 2,],]
dt2 <- dt[dt[, nchar(Ref) == 1,],]
setnames(lookup, c("Ref1", "Ref", "Value"))
setkey(lookup, Ref)
dt1Merged <- merge(dt1, lookup, by = "Ref")[,c(1:2, 4), with = F]
setnames(lookup, c("Ref", "Ref2", "Value"))
setkey(lookup, Ref)
dt2Merged <- merge(dt2, lookup, by = "Ref")[,c(1:2, 4), with = F]
result <- rbind(dt1Merged, dt2Merged)
这种方法需要大量代码,效率不高。有没有更有效的方法来做到这一点?由于这只是一组较大的操作中的一小部分,因此如果答案使用data.table或快速转换为此格式,则更为可取。
答案 0 :(得分:7)
也许你可以先将你的查找表融化到一列中的所有引用以及它们旁边的相应值,然后合并data.tables
newlookup=melt(lookup,id.vars="Value")
setnames(newlookup, c("Value", "oldRef", "Ref"))
merge(dt,newlookup,by="Ref")