在data.table
中创建向量列的最有效方法是什么?
我们需要匹配来自第二个data.table
的元素。
例如,给出下面的两个data.tables
> A_ids.DT > rec_data_table
name id bid counts names_list
1: A 1 1: 301 21 C,E
2: B 2 2: 302 21 E
3: C 3 3: 303 5 H,E,G
4: D 4 4: 304 10 H,D
5: F 6 5: 305 3 E
6: G 7 6: 306 5 G
7: H 8 7: 307 6 B,C
8: J 10
9: K 11
我想在rec_data_table
中创建一个新列,其中每个元素都是来自A_ids.DT
rec_data_table[,names_list]
的ID的列表
重要提示:names_list
的每个条目中显示的顺序必须反映在新列中。即:对于行3:
(H, E, G
),我们应该得到c(8, NA, 7)
使用sapply
的以下行有效,但我质疑其效率。
是否有更好的(即更快,更优雅)替代品? (注意实际数据是几行100K)
rec_data_table[, A_IDs.list := sapply(names_list, function(n) c(A_ids.DT[n, id]$id))]
bid counts names_list A_IDs.list
1: 301 21 C,E 3,NA
2: 302 21 E NA
3: 303 5 H,E,G 8,NA,7
4: 304 10 H,D 8,4
5: 305 3 E NA
6: 306 5 G 7
7: 307 6 B,C 2,3
<小时/>
#--------------------------------------------------#
# SAMPLE DATA #
library(data.table)
set.seed(101)
rows <- size <- 7
varyingLengths <- c(sample(1:3, rows, TRUE))
A <- lapply(varyingLengths, function(n) sample(LETTERS[1:8], n))
counts <- round(abs(rnorm(size)*12))
rec_data_table <- data.table(bid=300+(1:size), counts=counts, names_list=A, key="bid")
A_ids.DT <- data.table(name=LETTERS[c(1:4,6:8,10:11)], id=c(1:4,6:8,10:11), key="name")
答案 0 :(得分:6)
也许解压缩列表,然后加入整个表,然后重新打包?
tmp <- setkey(rec_data_table[, list(names = names_list[[1]],
orig.order = seq_along(names_list[[1]])),
by = list(bid, counts)], names)
tmp <- A_ids.DT[tmp]
setkey(tmp, orig.order)
tmp <- tmp[, list(names_list = list(name), A_IDs.list = list(id)),
by = list(bid, counts)]
# Rearrange to sample output order
setkey(tmp, bid)
setcolorder(tmp, c("bid", "counts", "names_list", "A_IDs.list"))
### Output###
> tmp
# bid counts names_list A_IDs.list
# 1: 301 21 C,E 3,NA
# 2: 302 21 E NA
# 3: 303 5 H,E,G 8,NA,7
# 4: 304 10 H,D 8,4
# 5: 305 3 E NA
# 6: 306 5 G 7
# 7: 307 6 B,C 2,3
> identical(tmp, rec_data_table[, A_IDs.list := sapply(names_list, function(n) c(A_ids.DT[n, id]$id))])
# [1] TRUE
我将rec_data_table
中的行数增加到1e5
并获得了以下时间。
有问题的方法:
> system.time(rec_data_table[, A_IDs.list := sapply(names_list, function(n) c(A_ids.DT[n, id]$id))])
user system elapsed
196.89 0.04 197.81
此处介绍的方法:
> system.time( {
+ tmp <- setkey(rec_data_ta .... [TRUNCATED]
user system elapsed
0.95 0.00 0.95