我在R中使用data.table
包,并希望对列执行操作。具体来说,我想强制所有值都是(0,1)。
让我们在这里使用一个简单的例子:
data = data.table(x = rnorm(10))
我的数据存储为data.table
所以我认为我可以这样做:
data[, newx := max(min(x, 1), 0)]
但是聚合函数(min
和max
)计算向量min / max。
好的,所以我做了一个更改,添加by=.I
语句:
data[, newx := max(min(x, 1), 0), by=.I]
但这也不起作用!
使用data.table
完成此类任务的正确方法是什么?
答案 0 :(得分:3)
您可以创建虚拟索引并在不再需要时将其删除,如下所示:
data[,Idx := .I][, newx := max(min(x, 1), 0), by = "Idx"][, Idx := NULL][]
# x newx
# 1: 1.12585452 1.0000000
# 2: 0.82343338 0.8234334
# 3: -1.02227889 0.0000000
# 4: 1.42761362 1.0000000
# 5: 0.77371518 0.7737152
# 6: -0.22261010 0.0000000
# 7: -0.64862015 0.0000000
# 8: -0.45663845 0.0000000
# 9: -0.96332902 0.0000000
# 10: -0.04396755 0.0000000
答案 1 :(得分:2)
您也可以尝试简单的ifelse
,即
data[, newX:= ifelse(x >1,1,x)][, newX:= ifelse(x < 0, 0,x)]
答案 2 :(得分:1)
更简单,更快捷的是将其分段定义:
set.seed(13084)
data = data.table(x = rnorm(10))
> data[ , newx := (xg1 <- x > 1) + x * (!xg1 & x > 0)][]
x newx
1: 0.7842597 0.7842597
2: -0.3935582 0.0000000
3: -2.3379063 0.0000000
4: -1.7428335 0.0000000
5: 0.1678035 0.1678035
6: -0.9558911 0.0000000
7: -1.5592778 0.0000000
8: 0.9358569 0.9358569
9: 0.7778178 0.7778178
10: 1.0937594 1.0000000