在评估data.table
(与dplyr
)的效用时,关键因素是能够在函数和循环中使用它。
为此,我修改了此帖中使用的代码段:data.table vs dplyr: can one do something well the other can't or does poorly?,以便代替硬编码的数据集变量名称(" cut"" price&#34 ;"钻石"数据集)的变量,它变得与数据集无关 - 切割n-paste准备好在任何函数或循环中使用(当我们事先不知道列名时)。
这是原始代码:
library(data.table)
dt <- data.table(ggplot2::diamonds)
dt[cut != "Fair", .(mean(price),.N), by = cut]
这是与数据集无关的等价物:
dt <- data.table(diamonds)
nVarGroup <- 2 #"cut"
nVarMeans <- 7 #"price"
strGroupConditions <- levels(dt[[nVarGroup]])[-1] # "Good" "Very Good" "Premium" "Ideal"
strVarGroup <- names(dt)[nVarGroup]
strVarMeans <- names(dt)[nVarMeans]
qAction <- quote(mean(get(strVarMeans))) #! w/o get() it does not work!
qGroup <- quote(get(strVarGroup) %in% strGroupConditions) #! w/o get() it does not work!
dt[eval(qGroup), .(eval(qAction), .N), by = strVarGroup]
注意(感谢下面的回复):如果您需要通过引用更改变量值,则需要使用()
,而不是get()
,如下所示:
strVarToBeReplaced <- names(dt)[1]
dt[eval(qGroup), (strVarToBeReplaced) := eval(qAction), by = strGroup][]
现在:您可以为所有循环需求剪切以下代码:
for(nVarGroup in 2:4) # Grouped by several categorical values...
for(nVarMeans in 5:10) { # ... get means of all numerical parameters
strGroupConditions <- levels(dt[[nVarGroup]])[-1]
strVarGroup <- names(dt)[nVarGroup]
strVarMeans <- names(dt)[nVarMeans]
qAction <- quote(mean(get(strVarMeans)))
qGroup <- quote(get(strVarGroup) %in% strGroupConditions)
p <- dt[eval(qGroup), .(AVE=eval(qAction), COUNT=.N), by = strVarGroup]
print(sprintf("nVaGroup=%s, nVarMeans=%s: ", strVarGroup, strVarMeans))
print(p)
}
我的第一个问题:
上面的代码虽然能够满足所需的功能/循环需求,但却显得非常复杂。 - 它使用不同的多个(可能是不一致的)非直观技巧,例如()
,get()
,quote()
/ eval()
,[[]]
)的组合。对于这种直截了当的需求似乎太多了......
还有另一种更好的方法来访问和修改循环中的data.tables值吗?也许使用on=
,lapply
/ .SD
/ {{1} }?
请在下面分享您的想法。此讨论旨在补充和整合其他帖子(例如此处列出的How can one work fully generically in data.table in R with column names in variables)中的相关位。最终,在.SDcols
和data.table
内使用functions
创建专用的插图非常棒。
第二个问题:
dplyr是否更容易达到此目的? - 但是,对于这个问题,我已经设置了一个单独的帖子:Is dplyr easier than data.table to be used within functions and loops?。
答案 0 :(得分:5)
OP已要求数据集无关等效进行分组和聚合。
使用development version 1.10.5,data.table
获得了新的分组集功能:rollup()
,cube()
和groupingsets()
,这些功能允许聚合在各种分组水平上立刻产生小计和总计。
添加的抽象级别可用于数据集无关方法。在OP示例中使用双嵌套for
循环计算的小计也可以通过
library(data.table) # version 1.10.5 required
dt = data.table(ggplot2::diamonds)
groupingsets(dt, c(lapply(.SD, mean), list(COUNT = .N)),
by = names(dt)[2:4], .SDcols = 5:10, id = FALSE,
sets = as.list(names(dt)[2:4]))
cut color clarity depth table price x y z COUNT 1: Ideal NA NA 61.70940 55.95167 3457.542 5.507451 5.520080 3.401448 21551 2: Premium NA NA 61.26467 58.74610 4584.258 5.973887 5.944879 3.647124 13791 3: Good NA NA 62.36588 58.69464 3928.864 5.838785 5.850744 3.639507 4906 4: Very Good NA NA 61.81828 57.95615 3981.760 5.740696 5.770026 3.559801 12082 5: Fair NA NA 64.04168 59.05379 4358.758 6.246894 6.182652 3.982770 1610 6: NA E NA 61.66209 57.49120 3076.752 5.411580 5.419029 3.340689 9797 7: NA I NA 61.84639 57.57728 5091.875 6.222826 6.222730 3.845411 5422 8: NA J NA 61.88722 57.81239 5323.818 6.519338 6.518105 4.033251 2808 9: NA H NA 61.83685 57.51781 4486.669 5.983335 5.984815 3.695965 8304 10: NA F NA 61.69458 57.43354 3724.886 5.614961 5.619456 3.464446 9542 11: NA G NA 61.75711 57.28863 3999.136 5.677543 5.680192 3.505021 11292 12: NA D NA 61.69813 57.40459 3169.954 5.417051 5.421128 3.342827 6775 13: NA NA SI2 61.77217 57.92718 5063.029 6.401370 6.397826 3.948478 9194 14: NA NA SI1 61.85304 57.66254 3996.001 5.888383 5.888256 3.639845 13065 15: NA NA VS1 61.66746 57.31515 3839.455 5.572178 5.581828 3.441007 8171 16: NA NA VS2 61.72442 57.41740 3924.989 5.657709 5.658859 3.491478 12258 17: NA NA VVS2 61.66378 57.02499 3283.737 5.218454 5.232118 3.221465 5066 18: NA NA VVS1 61.62465 56.88446 2523.115 4.960364 4.975075 3.061294 3655 19: NA NA I1 62.73428 58.30378 3924.169 6.761093 6.709379 4.207908 741 20: NA NA IF 61.51061 56.50721 2864.839 4.968402 4.989827 3.061659 1790
因此,我们不必知道列的名称。但是,我们必须指定要分组的列和要聚合的列。
答案 1 :(得分:2)
这可能不是最data.table
- 类似或最快的解决方案,但我会简化此特定循环中的代码,如下所示:
for(nVarGroup in 2:4) { # Grouped by several categorical values...
for(nVarMeans in 5:10) { # ... get means of all numerical parameters
strGroupConditions <- levels(dt[[nVarGroup]])[-1]
strVarGroup <- names(dt)[nVarGroup]
strVarMeans <- names(dt)[nVarMeans]
# qAction <- quote(mean(get(strVarMeans)))
# qGroup <- quote(get(strVarGroup) %in% strGroupConditions)
# p <- dt[eval(qGroup), .(AVE = eval(qAction), COUNT = .N), by = strVarGroup]
setkeyv(dt, strVarGroup)
p <- dt[strGroupConditions, .(AVE = lapply(.SD, mean), COUNT = .N), by = strVarGroup,
.SDcols = strVarMeans]
print(sprintf("nVaGroup = %s, nVarMeans = %s", strVarGroup, strVarMeans))
print(p)
}
}
我已将旧代码留作评论以供参考。
使用qAction
和lapply(.SD, mean)
参数替换 .SDcols
。
qGroup
由设置键并将所需值的向量作为i
参数的组合替换。
如果是一个更复杂的子集表达式,我会尝试使用on=
语法使用非equi(或条件)连接。
或者,按照Matt Dowle's advice创建要评估的一个表达式,&#34;类似于构建要发送到服务器的动态SQL语句&#34;。
马特建议创建辅助函数
EVAL <- function(...) eval(parse(text = paste0(...)), envir = parent.frame(2))
可以与来自fn$
包的gsubfn
的&#34;准perl类型字符串插值组合,以提高EVAL解决方案的可读性。为suggested by G. Grothendieck。
有了这个,循环的代码最终成为:
EVAL <- function(...) eval(parse(text = paste0(...)), envir = parent.frame(2))
library(gsubfn)
for(nVarGroup in 2:4) { # Grouped by several categorical values...
for(nVarMeans in 5:10) { # ... get means of all numerical parameters
strGroupConditions = levels(dt[[nVarGroup]])[-1]
strVarGroup = names(dt)[nVarGroup]
strVarMeans = names(dt)[nVarMeans]
p <- fn$EVAL("dt[$strVarGroup %in% strGroupConditions, .(AVE=mean($strVarMeans), COUNT=.N), by = strVarGroup]" )
print(sprintf("nVaGroup = %s, nVarMeans = %s", strVarGroup, strVarMeans))
print(p)
}
}
现在,data.table
语句看起来非常像&#34; native&#34;除了在引用变量内容的地方使用$strVarGroup
和$strVarMeans
之外的语句。
对于版本1.1.0(2016-08-19上的CRAN版本),stringr
包已获得字符串插值函数str_interp()
,这是gsubfn
包的替代方法
使用str_interp()
,for循环中的中心语句将变为
p <- EVAL(stringr::str_interp(
"dt[${strVarGroup} %in% strGroupConditions, .(AVE=mean(${strVarMeans}), COUNT=.N), by = strVarGroup]"
))
可以删除对library(gsubfn)
的调用。