假设我有一个向量x
:
x <- c(NA, NA, 1, 2, NA, NA, 3, 4)
如何识别此向量内的NA集,即
na_set <- c(1, 1, 0, 0, 2, 2, 0, 0)
我的最终目标是使用dplyr
将它与数据帧上的管道一起使用。因此,如果有与dplyr兼容的功能,那就更好了。
谢谢!
答案 0 :(得分:6)
您可以选择diff
中的is.na(x)
。如果元素是1
,则前一个元素是TRUE
,这将是FALSE
。应用== 1
后,对于TRUE
组启动,您有一个逻辑向量NA
。然后,您可以使用cumsum
来确定您所在的NA
组,然后乘以is.na(x)
来将非NA
的新元素设置为0
cumsum(diff(is.na(c(1, x))) == 1)*is.na(x)
#[1] 1 1 0 0 2 2 0 0
显示的中间结果:
a <- is.na(c(1, x))
a
#[1] FALSE TRUE TRUE FALSE FALSE TRUE TRUE FALSE FALSE
b <- diff(a) == 1
b
#[1] TRUE FALSE FALSE FALSE TRUE FALSE FALSE FALSE
d <- cumsum(b)
d
#[1] 1 1 1 1 2 2 2 2
我很感兴趣,所以我做了一个基准。我认为结果实际上并不重要,即使length(x)
中的1e7
的差异也以毫秒为单位。
x <- c(NA,NA, 1,2,NA,NA, 3,4)
x <- sample(x, 1e7, T)
f_rleid <- function(x){
nax <- is.na(x)
r <- rleid(x)*nax
r[nax] <- rleid(r[nax])
r
}
f_rle <- function(x){
r <- rle(is.na(x))
r$values <- cumsum(r$values) * r$values
inverse.rle(r)
}
f_diffna <- function(x){
nax <- is.na(x)
cumsum(c(as.integer(nax[1]), diff(nax)) == 1L)*nax
}
all.equal(f_rleid(x), f_rle(x))
# [1] TRUE
all.equal(f_rleid(x), f_diffna(x))
# [1] TRUE
microbenchmark::microbenchmark(f_rleid(x), f_rle(x),f_diffna(x))
# Unit: milliseconds
# expr min lq mean median uq max neval
# f_rleid(x) 421.9483 437.3314 469.3564 446.5081 511.9315 582.5812 100
# f_rle(x) 451.3790 519.5278 560.8057 572.4148 591.7632 697.2100 100
# f_diffna(x) 248.3631 267.5462 315.6224 291.5910 362.8829 459.6873 100
答案 1 :(得分:5)
计算is.na(x)的游程长度编码,并将其值替换为序号或0。然后取反。
r <- rle(is.na(x))
r$values <- cumsum(r$values) * r$values
inverse.rle(r)
## [1] 1 1 0 0 2 2 0 0
答案 2 :(得分:2)
如果不关心集合的确切等级,则可以使用rleid()
中便捷的data.table
函数:
rleid(x) * is.na(x)
[1] 1 1 0 0 4 4 0 0
用于速度比较:
library(microbenchmark)
x <- rep(x, 1e5)
microbenchmark(
IceCreamToucan = cumsum(diff(is.na(c(1, x))) == 1)*is.na(x),
tmfmnk = rleid(x) * is.na(x),
G._Grothendieck = {r <- rle(is.na(x))
r$values <- cumsum(r$values) * r$values
inverse.rle(r)},
times = 5
)
Unit: milliseconds
expr min lq mean median uq max neval cld
IceCreamToucan 48.607317 52.49508 66.64196 74.63182 76.81896 80.65662 5 b
tmfmnk 9.952486 12.58168 20.22834 14.38625 16.23961 47.98166 5 a
G._Grothendieck 53.533149 57.48818 59.12514 59.73295 62.14772 62.72371 5 b