添加两个缺少数据的变量

时间:2015-02-19 00:12:21

标签: r missing-data

这对于普通R用户来说可能是一个非常简单的问题,但我似乎无法找到解决方案。 我想添加两个缺少数据的变量。

x1<-c(NA,3,NA,5) x2<-c(NA,NA,4,3) x3<-x1+x2 x3 [1] NA NA NA 8

但我真正想要的是:

[1] NA 3 4 8

我们非常感谢任何建议。我怎样才能保留NA?

4 个答案:

答案 0 :(得分:9)

如果两者都是NA,请保留NA(扯掉@Ben Bolker&#39}使用cbind的方法):

apply(cbind(x1, x2), 1, function(x) ifelse(all(is.na(x)), NA, sum(x, na.rm=T)))
# [1] NA  3  4  8

或者,如果您更喜欢使用rowSums函数(这很有吸引力,因为它的矢量化而applymapply解决方案不是):

rowSums(cbind(x1, x2), na.rm=T) + ifelse(is.na(x1) & is.na(x2), NA, 0)
# [1] NA  3  4  8

这些都不会像Rcpp函数那样快(只需要在两个输入中循环一次):

library(Rcpp)
sum.na.ign <- cppFunction("
NumericVector sumNaIgn(NumericVector x, NumericVector y) {
  const int n = x.size();
  NumericVector out(n);
  for (int i=0; i < n; ++i) {
    if (R_IsNA(x[i])) {
      out[i] = y[i];
    } else if (R_IsNA(y[i])) {
      out[i] = x[i];
    } else {
      out[i] = x[i] + y[i];
    }
  }
  return out;
}")
sum.na.ign(x1, x2)
# [1] NA  3  4  8

我们可以针对较大的载体进行基准测试(以及基于mapply的@J.Won。)的解决方案:

# First two functions along with mapply-based solution from @J. Won.
f1 <- function(x1, x2) apply(cbind(x1, x2), 1, function(x) ifelse(all(is.na(x)), NA, sum(x, na.rm=T)))
f2 <- function(x1, x2) rowSums(cbind(x1, x2), na.rm=T) + ifelse(is.na(x1) & is.na(x2), NA, 0)
NAsum <- function(...) {
  if(any(!is.na(c(...)))) return(sum(..., na.rm=TRUE))
  return(NA)
}
jwon <- function(x1, x2) mapply(NAsum, x1, x2)

set.seed(144)
x1 <- sample(c(NA, 1:10), 10000, replace=T)
x2 <- sample(c(NA, 1:10), 10000, replace=T)
all.equal(jwon(x1, x2), f1(x1, x2), f2(x1, x2), sum.na.ign(x1, x2))
# [1] TRUE
library(microbenchmark)
microbenchmark(jwon(x1, x2), f1(x1, x2), f2(x1, x2), sum.na.ign(x1, x2))
# Unit: microseconds
#                expr       min         lq       mean     median        uq       max neval
#        jwon(x1, x2) 24044.658 28387.4280 35580.3434 35134.9940 38175.661 91476.032   100
#          f1(x1, x2) 37516.769 46664.6390 52293.5265 51570.2690 56647.063 77576.091   100
#          f2(x1, x2)  2588.820  2738.0740  2930.4106  2833.4880  2974.745  5187.684   100
#  sum.na.ign(x1, x2)    97.988   109.8575   132.9849   123.0795   142.725   533.275   100

rowSums解决方案是矢量化的,因此比applymapply解决方案更快(对于长度为100万的向量,这些解决方案会感觉很慢)但是自定义Rcpp解决方案超过10倍比rowSums方法更快。与rowSums相比,你的向量可能需要相当大才能使Rcpp有用。

答案 1 :(得分:7)

mapply(sum, x1, x2, na.rm=TRUE)

编辑:如果我们想要评论中要求的更复杂的版本,我认为它需要一个自定义函数

NAsum <- function(...) {
  if(any(!is.na(c(...)))) return(sum(..., na.rm=TRUE))
  return(NA)
}

mapply(NAsum, x1, x2)

答案 2 :(得分:5)

+无法取消NA值,但您可以:

rowSums(cbind(x1,x2),na.rm=TRUE)
## [1] 2 3 4 8

答案 3 :(得分:0)

我尝试使用以下代码作为上面的答案来解决我在数据框中总结两个以上变量的问题。我不确定平台上是否允许这样做,但仍想分享。

  

apply(cbind(x1,x2),1,function(x)ifelse(all(is.na(x)),NA,sum(x,   na.rm = T)))

以下是我的数据

    x1  x2  x3  VAt
1   NA  NA  a   NA
2   3   NA  b   1
3   NA  4   c   2
4   5   3   d   NA
  

One&lt; - read_csv(&#34;〜/ One.csv&#34;)

     

一个$ use&lt; - apply(cbind(One $ x1,One $ x2,One $ VAt),                     1,功能(x)           ifelse(所有(is.na(X)),                  NA,sum(x,na.rm = T)))

     

一个$ use1&lt; - with(One,apply(cbind(x1,x2,VAt),                    1,                    函数(x)的                      ifelse(所有(is.na(X)),                             NA,sum(x,na.rm = T))))

以下是输出。

    X1  x1  x2  x3  VAt use use1
1   1   NA  NA  a   NA  NA  NA
2   2   3   NA  b   1   4   4
3   3   NA  4   c   2   6   6
4   4   5   3   d   NA  8   8

感谢@swhusky提问和@josliber的答案。