Question

所以这是我现实生活中的问题，我觉得这个问题很容易解决，我在这里遗漏了一些明显的东西。我有两个大数据集TK和DFT

library(data.table)
set.seed(123)
(TK <- data.table(venue_id = rep(1:3, each = 2), 
                  DFT_id = rep(1:3, 2), 
                  New_id = sample(1e4, 6),
                  key = "DFT_id"))

#    venue_id DFT_id New_id
# 1:        1      1   2876
# 2:        1      2   7883
# 3:        2      3   4089
# 4:        2      1   8828
# 5:        3      2   9401
# 6:        3      3    456

(DFT <- data.table(venue_id = rep(1:2, each = 2), 
                   DFT_id = 1:4, 
                   New_id = sample(4),
                   key = "DFT_id"))

#    venue_id DFT_id New_id
# 1:        1      1      3
# 2:        1      2      4
# 3:        2      3      2
# 4:        2      4      1

我想在TK时DFT_id列的venue_id %in% 1:2列中执行二进制左连接，同时更新New_id 参考即可。换句话说，期望的结果将是

TK
#    venue_id DFT_id New_id
# 1:        1      1      3
# 2:        2      1      3
# 3:        1      2      4
# 4:        3      2   9401
# 5:        2      3      2
# 6:        3      3    456

我正在考虑将两种情况结合起来，但它不起作用（仍不确定原因）

TK[venue_id %in% 1:2 & DFT, New_id := i.New_id][]
# Error in `[.data.table`(TK, DFT & venue_id %in% 1:2, `:=`(New_id, i.New_id)) : 
#   i is invalid type (matrix). Perhaps in future a 2 column matrix could return a list of elements of DT (in the spirit of A[B] in FAQ 2.14). 
# Please let datatable-help know if you'd like this, or add your comments to FR #1611.

我的下一个想法是使用链接，通过正确连接而部分实现目标，但在某些临时表上却没有实际影响TK

TK[venue_id %in% 1:2][DFT, New_id := i.New_id][]
TK
#    venue_id DFT_id New_id
# 1:        1      1   2876
# 2:        2      1   8828
# 3:        1      2   7883
# 4:        3      2   9401
# 5:        2      3   4089
# 6:        3      3    456

所以要说清楚，我很清楚我可以将TK分成两个表，执行连接然后再次rbind，但我正在做许多不同的条件连接，如下所示我也在寻找速度和内存效率的解决方案。

这也意味着我不正在寻找dplyr解决方案，因为我正在尝试同时使用二进制连接和更新参考功能仅存在于data.table包IIRC中。

有关其他信息，请参阅以下内容：

Answer 1

从Arun的更新回复here

复制

TK[venue_id %in% 1:2, New_id := DFT[.SD, New_id]][]
#    venue_id DFT_id New_id
# 1:        1      1      3
# 2:        2      1      3
# 3:        1      2      4
# 4:        3      2   9401
# 5:        2      3      2
# 6:        3      3    456

他的回答详细说明了发生的事情。

Answer 2

这是一个非常简单的方法：

TK[DFT, New_id := ifelse(venue_id %in% 1:2, i.New_id, New_id)][]
#    venue_id DFT_id New_id
# 1:        1      1      3
# 2:        2      1      3
# 3:        1      2      4
# 4:        3      2   9401
# 5:        2      3      2
# 6:        3      3    456

我没有检查过，但我怀疑其他答案更快。

使用data.table包通过引用进行条件二进制连接和更新

2 个答案: