我正在使用包含深层嵌套列表的列表列的大型(数百万行)数据表,这些列表没有统一的结构,大小或元素顺序(list(x=1,y=2)
和list(y=2,x=1)
可能两者都存在,应该被视为相同)。我需要重复执行任意分组,其中包括数据表中的某些列以及列表列中的数据子集。并非所有行都具有与子集匹配的值。
我提出的方法感觉过于复杂。以下是要点:
识别嵌套列表结构中的值。我的方法是使用ul <- unlist(list_col)
,它“展平”嵌套数据结构并构建层次结构名称以直接访问每个元素,例如,address.country.code
。
确保从分组角度来看,相同的未列出数据的排列被视为相等。我的方法是通过ul[order(names(ul))]
和by=
及其值的名称对未列出的向量进行排序。通过引用将结果指定为新的字符向量列。
对展平值的子集执行分组。我无法使digest
以任何方式使用值为列表或向量的列。因此,我必须找到一种方法将唯一的字符向量映射到简单的值。我是用# Flatten list column in a data.table
flatten_list_col <- function(dt, col_name, flattened_col_name='props') {
flatten_props <- function(d) {
if (length(d) > 0) {
ul <- unlist(d)
names <- names(ul)
if (length(names) > 0) {
ul[order(names)]
} else {
NA
}
} else {
NA
}
}
flattened <- lapply(dt[[col_name]], flatten_props)
dt[, as.character(flattened_col_name) := list(flattened), with=F]
}
# Group by properties in a flattened list column
group_props <- function(prop_group, prop_col_name='props') {
substitute({
l <- lapply(eval(as.name(prop_col_name)), function(x) x[names(x) %in% prop_group])
as.character(lapply(l, digest))
}, list(prop_group=prop_group, prop_col_name=prop_col_name))
}
完成的。
以下是两个主力函数:
library(data.table)
dt <- data.table(
id=c(1,1,1,2,2,2),
count=c(1,1,2,2,3,3),
d=list(
list(x=1, y=2),
list(y=2, x=1),
list(x=1, y=2, z=3),
list(y=5, abc=list(a=1, b=2, c=3)),
NA,
NULL
)
)
flatten_list_col(dt, 'd')
dt[, list(total=sum(count)), by=list(id, eval(group_props(c('x', 'y'))))]
这是一个可重复的例子:
> flatten_list_col(dt, 'd')
id count d props
1: 1 1 <list> 1,2
2: 1 1 <list> 1,2
3: 1 2 <list> 1,2,3
4: 2 2 <list> 1,2,3,5
5: 2 3 NA NA
6: 2 3 NA
> dt[, list(total=sum(count)), by=list(id, eval(group_props(c('x', 'y'))))]
id group_props total
1: 1 325c6bbb2c33456d0301cf3909dd1572 4
2: 2 7aa1e567cd0d6920848d331d3e49fb7e 2
3: 2 ee7aa3b9ffe6bffdee83b6ecda90faac 6
输出结果为:
digest
这种方法有效但效率很低,因为需要压扁和放大订购列表,因为需要计算摘要。我想知道以下事项:
这样做是否可以通过直接从列表列中检索值来创建扁平列?这可能需要将所选属性指定为表达式而不是简单名称。
有没有办法解决{{1}}的需求?
答案 0 :(得分:4)
这里有很多问题。最重要的(还有一个你还没有因为其他人而来)是你通过引用分配,但试图用更多的值替换,而不是通过引用来替换它。
举一个非常简单的例子
DT <- data.table(x=1, y = list(1:5))
DT[,new := unlist(y)]
Warning message:
In `[.data.table`(DT, , `:=`(new, unlist(y))) :
Supplied 5 items to be assigned to 1 items of column 'new' (4 unused)
除了新创建的列表中的第一个nrow(DT)
项之外,您将丢失所有项目。它们不对应data.table
因此,您必须创建一个足够大的新data.table
,以便爆炸这些列表变量。这不可能通过参考。
newby <- dt[,list(x, props = as.character(unlist(data))), by = list(newby = seq_len(nrow(dt)))][,newby:=NULL]
newby
x props
1: 1 1
2: 1 2
3: 1 2
4: 1 1
5: 1 10
6: 2 1
7: 2 2
8: 2 3
9: 2 5
10: 2 1
11: 2 2
12: 2 3
13: 3 NA
14: 3 NA
请注意,as.character需要确保所有值都是相同的类型,以及不会在转换中丢失数据的类型。在momemnt中,您在数值/整数数据列表中有一个逻辑NA
值。
强制所有组件成为字符的另一个编辑(即使是NA)。 props现在是一个列表,每行有1个字符向量。
flatten_props&lt; - function(data){ if(is.list(data)){ ul&lt; - unlist(数据) if(length(ul)&gt; 1){ ul&lt; - ul [order(names(ul))] } as.character(ul)} else { as.character(不公开(数据))}}
dt[, props := lapply(data, flatten_props)]
dt
x data props
1: 1 <list> 1,2
2: 1 <list> 10,1,2
3: 2 <list> 1,2,3
4: 2 <list> 1,2,3,5
5: 3 NA NA
6: 3
dt[,lapply(props,class)]
V1 V2 V3 V4 V5 V6
1: character character character character character character