使用R中的data.table将列限制为特定范围

时间:2016-01-28 20:23:49

标签: r data.table

我在R中使用data.table包,并希望对列执行操作。具体来说,我想强制所有值都是(0,1)。

让我们在这里使用一个简单的例子:

data = data.table(x = rnorm(10))

我的数据存储为data.table所以我认为我可以这样做:

data[, newx := max(min(x, 1), 0)]

但是聚合函数(minmax)计算向量min / max。

好的,所以我做了一个更改,添加by=.I语句:

data[, newx := max(min(x, 1), 0), by=.I]

但这也不起作用!

使用data.table完成此类任务的正确方法是什么?

3 个答案:

答案 0 :(得分:3)

您可以创建虚拟索引并在不再需要时将其删除,如下所示:

data[,Idx := .I][, newx := max(min(x, 1), 0), by = "Idx"][, Idx := NULL][]

#              x      newx
# 1:  1.12585452 1.0000000
# 2:  0.82343338 0.8234334
# 3: -1.02227889 0.0000000
# 4:  1.42761362 1.0000000
# 5:  0.77371518 0.7737152
# 6: -0.22261010 0.0000000
# 7: -0.64862015 0.0000000
# 8: -0.45663845 0.0000000
# 9: -0.96332902 0.0000000
# 10: -0.04396755 0.0000000

答案 1 :(得分:2)

您也可以尝试简单的ifelse,即

data[, newX:= ifelse(x >1,1,x)][, newX:= ifelse(x < 0, 0,x)]

答案 2 :(得分:1)

更简单,更快捷的是将其分段定义:

set.seed(13084)
data = data.table(x = rnorm(10))
> data[ , newx := (xg1 <- x > 1) + x * (!xg1 & x > 0)][]
             x      newx
 1:  0.7842597 0.7842597
 2: -0.3935582 0.0000000
 3: -2.3379063 0.0000000
 4: -1.7428335 0.0000000
 5:  0.1678035 0.1678035
 6: -0.9558911 0.0000000
 7: -1.5592778 0.0000000
 8:  0.9358569 0.9358569
 9:  0.7778178 0.7778178
10:  1.0937594 1.0000000