R - 将固定列传递给data.table中的lapply函数

时间:2013-11-26 23:33:55

标签: r data.table

我有一个包含列p1p2,...的data.table,其中包含百分比。我想在给定引用变量val的情况下计算每列的分位数。从概念上讲,这就像:

quantile(val, p1, type = 4, na.rm = T)
quantile(val, p2, type = 4, na.rm = T)
...

我尝试使用data.table如下:

fun <- function(x, y) quantile(y, x, type = 4, na.rm = T)
dt[, c('q1', 'q2') := lapply(.SD, fun), .SDcols = c('p1', 'p2'), by = grp]
where grp is some grouping variable

但是,我无法以保持修复的方式指定y变量。

我尝试了以下内容:

fun <- function(x, y, dt) quantile(dt[, y], x, type = 4, na.rm = T)
dt[, c('q1', 'q2') := lapply(.SD, fun, y, dt), .SDcols = c('p1', 'p2'), by = grp]

但是这样做时,在计算分位数时不会强制执行分组。它将根据y变量的整个范围而不是组内的y来计算分位数。这样做的正确方法是什么?

编辑:

这是一个只有一个变量的简单例子:

> dt <- data.table(y = 1:10, p1 = rep(seq(0.2, 1, 0.2), 2), g = c(rep('a', 5), rep('b', 5)))
> dt
     y  p1 g
 1:  1 0.2 a
 2:  2 0.4 a
 3:  3 0.6 a
 4:  4 0.8 a
 5:  5 1.0 a
 6:  6 0.2 b
 7:  7 0.4 b
 8:  8 0.6 b
 9:  9 0.8 b
10: 10 1.0 b
> fun <- function(x, dt, y) quantile(dt[, y], x, type = 4, na.rm = T)
> dt[, c('q1') := lapply(.SD, fun, dt, y), .SDcols = c('p1'), by = c('g')]
> dt
     y  p1 g q1
 1:  1 0.2 a  2
 2:  2 0.4 a  4
 3:  3 0.6 a  6
 4:  4 0.8 a  8
 5:  5 1.0 a 10
 6:  6 0.2 b  2
 7:  7 0.4 b  4
 8:  8 0.6 b  6
 9:  9 0.8 b  8
10: 10 1.0 b 10

您可以看到使用y的整个范围计算q1。

1 个答案:

答案 0 :(得分:0)

我发现你会将所需的百分比存储在相同的data.table中,因为你希望计算分位数的数据非常奇怪,但这里有一种方法可以使用

dt <- data.table(x=10:1,y = 1:10, p1 = rep(seq(0.2, 1, 0.2), 2), g = c(rep('a', 5), rep('b', 5)))


dt[, c('qx','qy') := Map(f = quantile, x = list(x, y), prob = list(p1), type = 4), by = g]

您可以在.SDcols内使用.SD来选择所需的列

dt[, c('qx','qy') := Map(f = quantile, x = .SD[, .SDcols = c('x','y')], 
                         prob = list(p1), type = 4), by = g]

或使用with =FALSE

dt[, c('qx','qy') := Map(f = quantile, x = .SD[, c('x', 'y'), with = FALSE], 
                          prob = list(p1), type = 4), by = g]