考虑:
dt <- data.table(a=factor(rep(c("a", "b"), 5)), b=1:10)
dt[, list(mean(b), a), by=a]
产地:
a V1 a
1: a 5 1
2: b 6 2
此外:
Classes 'data.table' and 'data.frame': 2 obs. of 3 variables:
$ a : Factor w/ 2 levels "a","b": 1 2
$ V1: num 5 6
$ a : int 1 2
- attr(*, ".internal.selfref")=<externalptr>
请注意最后一栏。实际的by
列本身很好,当您尝试在by
中明确重复使用j
列时会出现问题。我也相信.BY
变量有同样的问题。这是在1.9.2中使用R 3.0.2和R 7在Win 7上(尽管在Mac OS 10.8上观察到)。这曾经用于早期版本(不确定哪些,从内存中可能出错)。
首先在这里发布,以防我做一些愚蠢的事情。
此外,似乎未分组的by
变量不再可用。例如:
dt[, list(mean(b), a[[2]]), by=a]
产生一个越界错误,尽管可能总是如此。我希望a
中j
的{{1}}能够在dt
中得到全面评估,所以a[[2]]
应该有效(无论如何,我的脑子里也许永远不会这样做)
会话信息:
R version 3.0.2 (2013-09-25)
Platform: x86_64-pc-linux-gnu (64-bit)
locale:
[1] C
attached base packages:
[1] graphics grDevices utils datasets stats methods base
other attached packages:
[1] data.table_1.9.2
loaded via a namespace (and not attached):
[1] Rcpp_0.11.1 functional_0.4 plyr_1.8.1 reshape2_1.2.2
[5] stringr_0.6.2 tools_3.0.2
答案 0 :(得分:4)
您的帖子中有三个问题。我会按顺序回答。
参考j
中的因子列,不保留该类在1.9.3中修复(错误#5437 IIRC)。由于1.9.0中的各种增强(以及R3.1.0 IIRC的一些变化),这是一个微小的回归。现在添加测试以捕获它。
require(data.table) ## 1.9.3
dt <- data.table(a=factor(rep(c("a", "b"), 5)), b=1:10)
str(dt[, list(mean(b), a), by=a])
# Classes ‘data.table’ and 'data.frame': 2 obs. of 3 variables:
# $ a : Factor w/ 2 levels "a","b": 1 2
# $ V1: num 5 6
# $ a : Factor w/ 2 levels "a","b": 1 2
# - attr(*, ".internal.selfref")=<externalptr>
.BY
的问题也在1.9.3中修复:
dt[, print(.BY), by=a]
# $a
# [1] a
# Levels: a b
# $a
# [1] b
# Levels: a b
# Empty data.table (0 rows) of 1 col: a
dt[, list(mean(b), a[[2]]), by=a]
# Error in `[[.default`(a, 2) : subscript out of bounds
这是因为by
中的变量/列默认可用作length=1
向量。毕竟,这是你要分组的变量。
但是,我已经通过@Matt和@eddi提出了此功能的潜在问题。您可以在评论中找到我和@eddi here之间的简短讨论。我也写过关于此的Matt,目前正在讨论中。无论分辨率如何,这都将很快得到解决和记录。
我现在的立场是by
中的列不应该掩盖dt
的列。这从bug #5191开始,基本上是这样的:
DT <- data.table(x=1:5, y=6:10)
DT[, sum(x), by=x%%3L]
# x V1
# 1: 1 1
# 2: 2 2
# 3: 0 0
实际结果应该是:
DT <- data.table(x=1:5, y=6:10)
DT[, sum(x), by=list(grp=x%%3L)]
# grp V1
# 1: 1 5
# 2: 2 7
# 3: 0 3
结果不正确,因为by
列x
会屏蔽与每个组对应的x
中的列DT
。在这种情况下,发生这种情况是因为我们允许by
中的表达式。
然而,即使不是情景,它也会延伸。考虑一下这个案例:
> DT[, sum(y), by=list(y=x)]
# y V1
# 1: 1 1
# 2: 2 2
# 3: 3 3
# 4: 4 4
# 5: 5 5
此处发生的事情是,按列y
命名会导致y
DT
被屏蔽。
恕我直言,应该做的是by
不应该屏蔽DT
中将j
中使用的列。.BY
相反,如果需要引用分组变量,则应使用已存在的[1L]
变量(或简单地将第一个索引与> DT[, print(.BY$x), by=x]
# [1] 1
# [1] 2
# [1] 3
# [1] 4
# [1] 5
# Empty data.table (0 rows) of 1 col: x
进行子集化),如下所示:
{{1}}
这只是我的观点,可能还有其他论据可以保留当前功能并修复这些潜在的错误案例。我们将不得不讨论并解决这个问题,并根据我们的结论,相应地进行记录。
一旦完成,我会更新这篇文章:)。