Question

我正在尝试计算 dplyr/tidyverse 框架内之前 k 个非 NA 值的滚动平均值。我写了一个似乎可以工作的函数，但想知道是否已经有某个包中的函数（这可能比我的尝试更有效）正是这样做的。示例数据集：

tmp.df <- data.frame(
  x = c(NA, 1, 2, NA, 3, 4, 5, NA, NA, NA, 6, 7, NA)
)

假设我想要前 3 个非 NA 值的滚动平均值。那么输出 y 应该是：

y 的前 5 个元素是 NA，因为第一次 x 有 3 个先前的非 NA 值是在第 6 行，并且这 3 个元素的平均值是 2。接下来的 y 元素是不言自明的。第 9 行得到 4，因为 x 的前 3 个非 NA 值位于第 5、6 和 7 行等中。

我的尝试是这样的：

roll_mean_previous_k <- function(x, k){
  
  require(dplyr)
  
  res                      <- NA
  lagged_vector            <- dplyr::lag(x)
  lagged_vector_without_na <- lagged_vector[!is.na(lagged_vector)]
  previous_k_values        <- tail(lagged_vector_without_na, k)
  
  if (length(previous_k_values) >= k) res <- mean(previous_k_values)
  
  res
  
}

如下使用（使用 slide_dbl 包中的 slider 函数）：

library(dplyr)

tmp.df %>% 
  mutate(
    y = slider::slide_dbl(x, roll_mean_previous_k, k = 3, .before = Inf)
  )

提供所需的输出。但是，我想知道是否有现成的，并且（如前所述）更有效的方法来做到这一点。我应该提到我分别从 rollmean 和 roll_mean 包中知道 zoo 和 RcppRoll，但除非我弄错了，它们似乎在固定滚动窗口上工作可以选择处理 NA 值（例如忽略它们）。就我而言，我想“扩展”我的窗口以包含 k 非 NA 值。

欢迎提出任何想法/建议。

编辑 - 模拟结果

感谢所有贡献者。首先，我没有提到我的数据集确实要大得多并且经常运行，所以任何性能改进都是最受欢迎的。因此，在决定接受哪个答案之前，我运行了以下模拟来检查执行时间。请注意，某些答案需要进行小幅调整才能返回所需的输出，但是如果您觉得您的解决方案被歪曲了（因此效率低于预期），请随时告诉我，我会相应地进行编辑。我在下面的回答中使用了 G. Grothendieck 的技巧，以消除对滞后的非 NA 向量的长度进行 if-else 检查的需要。

这里是模拟代码：

library(tidyverse)
library(runner)
library(zoo)
library(slider)
library(purrr)
library(microbenchmark)

set.seed(20211004)
test_vector <- sample(x = 100, size = 1000, replace = TRUE)
test_vector[sample(1000, size = 250)] <- NA

# Based on GoGonzo's answer and the runner package
f_runner <- function(z, k){
  
  runner(
    x = z, 
    f = function(x) {
      mean(`length<-`(tail(na.omit(head(x, -1)), k), k)) 
    }
  )
  
}

# Based on my inital answer (but simplified), also mentioned by GoGonzo 
f_slider <- function(z, k){
  
  slide_dbl(
    z,
    function(x) {
      mean(`length<-`(tail(na.omit(head(x, -1)), k), k)) 
    },
    .before = Inf
  )
}

# Based on helios' answer. Return the correct results but with a warning.
f_helios <- function(z, k){
  
    reduced_vec <-  na.omit(z)
    unique_means <-  rollapply(reduced_vec, width = k, mean)
    
    start <-  which(!is.na(z))[k] + 1
    repeater <-  which(is.na(z)) + 1
    repeater_cut <-  repeater[(repeater > start-1) & (repeater <= length(z))]
    
    final <- as.numeric(rep(NA, length(z)))
    index <-  start:length(z)
    final[setdiff(index, repeater_cut)] <- unique_means
    final[(start):length(final)] <- na.locf(final)
    final
}

# Based on G. Grothendieck's answer (but I couldn't get it to run with the performance improvements)
f_zoo <- function(z, k){
  
  rollapplyr(
    z, 
    seq_along(z), 
    function(x, k){
      mean(`length<-`(tail(na.omit(head(x, -1)), k), k)) 
    },
    k)

}

# Based on AnilGoyal's answer
f_purrr <- function(z, k){
  
    map_dbl(
      seq_along(z), 
      ~ ifelse(
        length(tail(na.omit(z[1:(.x -1)]), k)) == k,
        mean(tail(na.omit(z[1:(.x -1)]), k)), 
        NA
        )
      )

}

# Check if all are identical #
all(
  sapply(
    list(
      # f_helios(test_vector, 10),
      f_purrr(test_vector, 10),
      f_runner(test_vector, 10),
      f_zoo(test_vector, 10)
    ), 
    FUN = identical, 
    f_slider(test_vector, 10),
  )
)

# Run benchmarking #
microbenchmark(
  # f_helios(test_vector, 10),
  f_purrr(test_vector, 10),
  f_runner(test_vector, 10),
  f_slider(test_vector, 10),
  f_zoo(test_vector, 10)
)

结果：

Unit: milliseconds
                      expr     min       lq     mean   median       uq      max neval  cld
  f_purrr(test_vector, 10) 31.9377 37.79045 39.64343 38.53030 39.65085 104.9613   100   c 
 f_runner(test_vector, 10) 23.7419 24.25170 29.12785 29.23515 30.32485  98.7239   100  b  
 f_slider(test_vector, 10) 20.6797 21.71945 24.93189 26.52460 27.67250  32.1847   100 a   
    f_zoo(test_vector, 10) 43.4041 48.95725 52.64707 49.59475 50.75450 122.0793   100    d

基于上述，除非代码可以进一步改进，否则 slider 和 runner 解决方案似乎更快。非常欢迎任何最终建议。

非常感谢您的时间！

Answer 1

使用 issue 它将类似于 mean of 3-elements tail 非 na 值窗口。您可以使用滑块获得相同的结果

library(runner)
tmp.df <- data.frame(
  x = c(NA, 1, 2, NA, 3, 4, 5, NA, NA, NA, 6, 7, NA)
)

# using runner
tmp.df$y_runner <- runner(
  x = tmp.df$x, 
  f = function(x) {
    mean(
      tail(
        x[!is.na(x)],
        3
      )
    )
  }
)

# using slider
tmp.df$y_slider <- slider::slide_dbl(
  tmp.df$x, 
  function(x) {
    mean(
      tail(
        x[!is.na(x)],
        3
      )
    )
  }, 
  .before = Inf
)

tmp.df


#    x    y_runner y_slider
# 1  NA      NaN      NaN
# 2   1      1.0      1.0
# 3   2      1.5      1.5
# 4  NA      1.5      1.5
# 5   3      2.0      2.0
# 6   4      3.0      3.0
# 7   5      4.0      4.0
# 8  NA      4.0      4.0
# 9  NA      4.0      4.0
# 10 NA      4.0      4.0
# 11  6      5.0      5.0
# 12  7      6.0      6.0
# 13 NA      6.0      6.0

Answer 2

rollapplyr。 关于问题中关于 rollmean 的评论，zoo 也有 rollappy 和 rollapplyr（右对齐），它们通过指定向量允许输入的每个组件具有不同的宽度（和偏移量）（正如我们在这里所做的那样）或宽度列表——请参阅 ?rollapply 了解更多信息。我们在下面使用了一个相对简单的宽度向量，并展示了一些运行速度更快的改进的宽度向量。

操作创建一个 Mean 函数，它接受一个向量，删除最后一个元素和所有 NA，并根据需要将剩下的最后 k 个元素扩展到带有 NA 的 k 个元素。最后取平均值。我们使用 rollapplyr 将其应用到宽度为 seq_along(x) 的 x。

性能改进。对于这个小数据，以下可能不会产生太大影响，但如果您有更大的数据，您可以尝试这些可能会提高速度的方法：

用折叠包中的 na_rm 替换 na.omit
用此处显示的代码替换 rollapplyr 的第二个参数。这里的想法是 NA 加上 k+1 的 k+1 个最长游程的长度之和形成了我们需要考虑的元素数量的界限。当我用 1300 行（由问题中的 100 个数据副本组成）尝试问题时，这（加上使用 na_rm）的运行速度比问题中的代码快了大约 25%，并且没有添加太多额外的代码。
```
pmin(with(rle(is.na(x)), sum(tail(sort(lengths[values]), k+1)))+k+1, seq_along(x))
```
用 w 替换 rollapplyr 的第二个参数，此处显示 w。这里的想法是使用 findInterval 来找到元素 k 非 NA 的后面，它提供了一个更严格的界限。当尝试使用相同的 1300 行时，这个（加上使用 na_rm）的运行速度几乎是问题中代码的两倍，代价是增加了 2 行代码。
```
tt <- length(x) - rev(cumsum(rev(!is.na(x))))
w <- seq_along(tt) - findInterval(tt - k - 1, tt)
```

代码。根据问题中的数据，下面的代码（不使用上述改进）比基于我的基准测试的问题中的代码运行得稍微快一些（不是很多），它只是两行代码。

library(dplyr)
library(zoo)

Mean <- function(x, k) mean(`length<-`(tail(na.omit(head(x, -1)), k), k))
tmp.df %>% mutate(y = rollapplyr(x, seq_along(x), Mean, k = 3))

给予：

Answer 3

由于我不知道在任何标准库中计算输出的现成方法，我想出了下面的实现 Token，这似乎大大加快了计算速度。请注意，此实现使用了 roll_mean_k_efficient 包中的 rollapply 和 na.locf 方法。

zoo

此外，我扩展了您的示例向量 rm(list = ls()) library("zoo") library("rbenchmark") library("dplyr") x = rep(c(NA, 1, 2, NA, 3, 4, 5, NA, NA, NA, 6, 7, NA), 100) # your sample (extended) tmp.df <- data.frame( x = rep(c(NA, 1, 2, NA, 3, 4, 5, NA, NA, NA, 6, 7, NA), 100) ) # enhanced implementation roll_mean_k_efficient <- function(x, k){ reduced_vec = na.omit(x) unique_means = rollapply(reduced_vec, width=k, mean) start = which(!is.na(x))[k] + 1 repeater = which(is.na(x)) + 1 repeater_cut = repeater[(repeater > start-1) & (repeater <= length(x))] final <- as.numeric(rep(NA, length(x))) index = start:length(x) final[setdiff(index, repeater_cut)] <- unique_means final[(start):length(final)] <- na.locf(final) final } # old implementation roll_mean_previous_k <- function(x, k){ res <- NA lagged_vector <- dplyr::lag(x) lagged_vector_without_na <- lagged_vector[!is.na(lagged_vector)] previous_k_values <- tail(lagged_vector_without_na, k) if (length(previous_k_values) >= k) res <- mean(previous_k_values) res } # wrapper function for the benchmarking below roll_mean_benchmark = function(){ res = tmp.df %>% mutate( y = slider::slide_dbl(x, roll_mean_previous_k, k = 3, .before = Inf) ) return(res) } # some benchmarking benchmark(roll_mean_k_efficient(x = x, k=3), roll_mean_benchmark(), columns=c('test','elapsed','replications'), replications = 100)，以通过 x 包中的 benchmark 函数获得一些更可靠的基准测试结果。在我的情况下，运行代码后打印的基准运行时是：

rbenchmark

Answer 4

不使用 zoo。以 tidyverse 方式，您也可以使用 purrr::map


tmp.df %>% mutate(y = map(seq_along(x), ~ ifelse(length(tail(na.omit(tmp.df$x[1:(.x -1)]), 3)) ==3, 
                                                 mean(tail(na.omit(tmp.df$x[1:(.x -1)]), 3)), 
                                                 NA)))

    x  y
1  NA NA
2   1 NA
3   2 NA
4  NA NA
5   3 NA
6   4  2
7   5  3
8  NA  4
9  NA  4
10 NA  4
11  6  4
12  7  5
13 NA  6

R - 计算前 k 个非 NA 值的滚动平均值

4 个答案: