通过data.table中的列列子集快速分组

时间:2012-12-21 03:24:36

标签: r grouping data.table aggregation

我正在使用包含深层嵌套列表的列表列的大型(数百万行)数据表,这些列表没有统一的结构,大小或元素顺序(list(x=1,y=2)list(y=2,x=1)可能两者都存在,应该被视为相同)。我需要重复执行任意分组,其中包括数据表中的某些列以及列表列中的数据子集。并非所有行都具有与子集匹配的值。

我提出的方法感觉过于复杂。以下是要点:

  • 识别嵌套列表结构中的值。我的方法是使用ul <- unlist(list_col),它“展平”嵌套数据结构并构建层次结构名称以直接访问每个元素,例如,address.country.code

  • 确保从分组角度来看,相同的未列出数据的排列被视为相等。我的方法是通过ul[order(names(ul))]by=及其值的名称对未列出的向量进行排序。通过引用将结果指定为新的字符向量列。

  • 对展平值的子集执行分组。我无法使digest以任何方式使用值为列表或向量的列。因此,我必须找到一种方法将唯一的字符向量映射到简单的值。我是用# Flatten list column in a data.table flatten_list_col <- function(dt, col_name, flattened_col_name='props') { flatten_props <- function(d) { if (length(d) > 0) { ul <- unlist(d) names <- names(ul) if (length(names) > 0) { ul[order(names)] } else { NA } } else { NA } } flattened <- lapply(dt[[col_name]], flatten_props) dt[, as.character(flattened_col_name) := list(flattened), with=F] } # Group by properties in a flattened list column group_props <- function(prop_group, prop_col_name='props') { substitute({ l <- lapply(eval(as.name(prop_col_name)), function(x) x[names(x) %in% prop_group]) as.character(lapply(l, digest)) }, list(prop_group=prop_group, prop_col_name=prop_col_name)) } 完成的。

以下是两个主力函数:

library(data.table)

dt <- data.table(
  id=c(1,1,1,2,2,2), 
  count=c(1,1,2,2,3,3), 
  d=list(
    list(x=1, y=2), 
    list(y=2, x=1), 
    list(x=1, y=2, z=3),
    list(y=5, abc=list(a=1, b=2, c=3)),
    NA,
    NULL    
    )
)

flatten_list_col(dt, 'd')
dt[, list(total=sum(count)), by=list(id, eval(group_props(c('x', 'y'))))]

这是一个可重复的例子:

> flatten_list_col(dt, 'd')
   id count      d   props
1:  1     1 <list>     1,2
2:  1     1 <list>     1,2
3:  1     2 <list>   1,2,3
4:  2     2 <list> 1,2,3,5
5:  2     3     NA      NA
6:  2     3             NA

> dt[, list(total=sum(count)), by=list(id, eval(group_props(c('x', 'y'))))]
   id                      group_props total
1:  1 325c6bbb2c33456d0301cf3909dd1572     4
2:  2 7aa1e567cd0d6920848d331d3e49fb7e     2
3:  2 ee7aa3b9ffe6bffdee83b6ecda90faac     6

输出结果为:

digest

这种方法有效但效率很低,因为需要压扁和放大订购列表,因为需要计算摘要。我想知道以下事项:

  1. 这样做是否可以通过直接从列表列中检索值来创建扁平列?这可能需要将所选属性指定为表达式而不是简单名称。

  2. 有没有办法解决{{1}}的需求?

1 个答案:

答案 0 :(得分:4)

这里有很多问题。最重要的(还有一个你还没有因为其他人而来)是你通过引用分配,但试图用更多的值替换,而不是通过引用来替换它。

举一个非常简单的例子

DT <- data.table(x=1, y = list(1:5))
DT[,new := unlist(y)]
Warning message:
In `[.data.table`(DT, , `:=`(new, unlist(y))) :
  Supplied 5 items to be assigned to 1 items of column 'new' (4 unused)

除了新创建的列表中的第一个nrow(DT)项之外,您将丢失所有项目。它们不对应data.table

的行

因此,您必须创建一个足够大的新data.table,以便爆炸这些列表变量。这不可能通过参考。

 newby <- dt[,list(x, props = as.character(unlist(data))), by = list(newby = seq_len(nrow(dt)))][,newby:=NULL]
newby


   x props
 1: 1     1
 2: 1     2
 3: 1     2
 4: 1     1
 5: 1    10
 6: 2     1
 7: 2     2
 8: 2     3
 9: 2     5
10: 2     1
11: 2     2
12: 2     3
13: 3    NA
14: 3    NA

请注意,as.character需要确保所有值都是相同的类型,以及不会在转换中丢失数据的类型。在momemnt中,您在数值/整数数据列表中有一个逻辑NA值。


强制所有组件成为字符的另一个编辑(即使是NA)。 props现在是一个列表,每行有1个字符向量。

flatten_props&lt; - function(data){   if(is.list(data)){       ul&lt; - unlist(数据)       if(length(ul)&gt; 1){        ul&lt; - ul [order(names(ul))]       }        as.character(ul)} else {          as.character(不公开(数据))}}

dt[, props := lapply(data, flatten_props)]
dt
   x   data   props
1: 1 <list>     1,2
2: 1 <list>  10,1,2
3: 2 <list>   1,2,3
4: 2 <list> 1,2,3,5
5: 3     NA      NA
6: 3   

dt[,lapply(props,class)]
          V1        V2        V3        V4        V5        V6
1: character character character character character character