如何将`==`行为扩展到包含NA的向量?

时间:2015-01-30 14:53:28

标签: r

我在搜索此特定问题的其他r-help或Stack Overflow讨论时完全失败了。对不起,如果它显而易见的话。我相信我只是在寻找最简单的方法来让R的==符号永远不会返回NAs。

# Example #

# Say I have two vectors
a <- c( 1 , 2 , 3 )
b <- c( 1 , 2 , 4 )
# And want to test if each element in the first
# is identical to each element in the second:
a == b
# It does what I want perfectly:
# TRUE TRUE FALSE

# But if either vector contains a missing,
# the `==` operator returns an incorrect result:
a <- c( 1 , NA , 3 ) 
b <- c( 1 , NA , 4 )
# Here I'd want   TRUE TRUE FALSE
a == b
# But I get TRUE NA FALSE

a <- c( 1 , NA , 3 ) 
b <- c( 1 , 2 , 4 )
# Here I'd want   TRUE FALSE FALSE
a == b
# But I get TRUE NA FALSE again.

我得到了我想要的结果:

mapply( `%in%` , a , b )

mapply似乎对我很苛刻。

对此有更直观的解决方案吗?

4 个答案:

答案 0 :(得分:25)

另一种选择,但它是否优于mapply('%in%', a , b)?:

(!is.na(a) & !is.na(b) & a==b) | (is.na(a) & is.na(b))

按照@AnthonyDamico的建议,创建了“mutt”运营商:

"%==%" <- function(a, b) (!is.na(a) & !is.na(b) & a==b) | (is.na(a) & is.na(b))

编辑:或者@Frank稍微不同且更短的版本(效率也更高)

"%==%" <- function(a, b) (is.na(a) & is.na(b)) | (!is.na(eq <- a==b) & eq)

使用不同的示例:

a <- c( 1 , 2 , 3 )
b <- c( 1 , 2 , 4 )
a %==% b
# [1]  TRUE  TRUE FALSE

a <- c( 1 , NA , 3 )
b <- c( 1 , NA , 4 )
a %==% b
# [1]  TRUE  TRUE FALSE

a <- c( 1 , NA , 3 )
b <- c( 1 , 2 , 4 )
a %==% b
#[1]  TRUE FALSE FALSE

a <- c( 1 , NA , 3 )
b <- c( 3 , NA , 1 )
a %==% b
#[1] FALSE  TRUE FALSE

答案 1 :(得分:13)

你可以尝试

replace(a, is.na(a), Inf)==replace(b, is.na(b), Inf)

或@docendo discimus提出的更快的变化

replace(a, which(is.na(a)), Inf)==replace(b, which(is.na(b)), Inf)

基于不同的场景

1

a <- c( 1 , 2 , 3 )
b <- c( 1 , 2 , 4 )
akrun1()
#[1]  TRUE  TRUE FALSE

2

 a <- c( 1 , NA , 3 ) 
 b <- c( 1 , NA , 4 )
 akrun1()
 #[1]  TRUE  TRUE FALSE

3

 a <- c( 1 , NA , 3 ) 
 b <- c( 1 , 2 , 4 )
 akrun1()
#[1]  TRUE FALSE FALSE

基准

set.seed(24)
a <- sample(c(1:10, NA), 1e6, replace=TRUE)
b <- sample(c(1:20, NA), 1e6, replace=TRUE)
akrun1 <- function() {replace(a, is.na(a), Inf)==replace(b, is.na(b), Inf)}
cathG <- function() {(!is.na(a) & !is.na(b) & a==b) | (is.na(a) & is.na(b))}
anthony <- function() {mapply(`%in%`, a, b)}
webb <- function() {ifelse(is.na(a),is.na(b),a==b)}
docend <- function() {replace(a, which(is.na(a)), Inf)==replace(b,
       which(is.na(b)), Inf)}

library(microbenchmark)
microbenchmark(akrun1(), cathG(), anthony(), webb(),docend(),
  unit='relative', times=20L)
#Unit: relative
#    expr        min         lq       mean     median         uq        max
#  akrun1()   3.050200   3.035625   3.007196   2.963916   2.977490   3.083658
#   cathG()   4.829972   4.893266   4.843585   4.790466   4.816472   4.939316
# anthony() 190.499027 224.389971 215.792965 217.647702 215.503308 212.356051
#    webb()  14.000363  14.366572  15.412527  14.095947  14.671741  19.735746
#  docend()   1.000000   1.000000   1.000000   1.000000   1.000000   1.000000
# neval cld
#    20 a  
#    20 a  
#    20 c
#    20 b 
#    20 a  

答案 2 :(得分:5)

假设我们没有相对较大的NA,建议的矢量化解决方案会浪费一些资源来比较已经由a==b确定的值。

我们通常可以假设NAs很少,所以它首先值得计算a==b,然后分别处理NAs,尽管有额外的步骤和临时变量:

`%==%` <- function(a,b){
  x <- a==b
  na_x <- which(is.na(x))
  x[na_x] <- is.na(a[na_x]) & is.na(b[na_x])
  x
}

检查输出

a <- c( 1 , 2 , 3 )
b <- c( 1 , 2 , 4 )
a %==% b
# [1]  TRUE  TRUE FALSE

a <- c( 1 , NA , 3 ) 
b <- c( 1 , NA , 4 )
a %==% b
# [1]  TRUE  TRUE FALSE

a <- c( 1 , NA , 3 ) 
b <- c( 1 , 2 , 4 )
a %==% b
# [1]  TRUE FALSE FALSE

<强>基准

我只使用最快的解决方案再现@ akrun的基准测试,n = 100。

set.seed(24)
a <- sample(c(1:10, NA), 1e6, replace=TRUE)
b <- sample(c(1:20, NA), 1e6, replace=TRUE)
mm <- function(){
  x <- a==b
  na_x <- which(is.na(x))
  x[na_x] <- is.na(a[na_x]) & is.na(b[na_x])
  x
}
akrun1 <- function() {replace(a, is.na(a), Inf)==replace(b, is.na(b), Inf)}
cathG <- function() {(!is.na(a) & !is.na(b) & a==b) | (is.na(a) & is.na(b))}
docend <- function() {replace(a, which(is.na(a)), Inf)==replace(b, which(is.na(b)), Inf)}

library(microbenchmark)
microbenchmark(mm(),akrun1(),cathG(),docend(),
               unit='relative', times=100L)

# Unit: relative
#     expr      min       lq     mean   median       uq       max neval
#     mm() 1.000000 1.000000 1.000000 1.000000 1.000000 1.0000000   100
# akrun1() 1.667242 1.884185 1.815392 1.642581 1.765238 0.9973017   100
#  cathG() 2.447168 2.449597 2.118306 2.201346 2.358105 1.1421577   100
# docend() 1.683817 1.950970 1.756481 1.745400 2.007889 1.2264461   100

扩展==

正如最初要问的那样:

  

R的{​​{1}}符号永远不会返回==

的最简单方法

以下是我们定义新课程NAs的方法。只有一个向量需要属于这个类,而另一个向量将被强制转换为它。

na_comparable

在dplyr链中,它可以通过这种方式方便地使用:

na_comparable      <- setClass("na_comparable", contains = "numeric")
`==.na_comparable` <- function(a,b){
  x <- unclass(a) == unclass(b) # inefficient but I don't know how to force the default `==`
  na_x <- which(is.na(x))
  x[na_x] <- is.na(a[na_x]) & is.na(b[na_x])
  x
}

`!=.na_comparable` <- Negate(`==.na_comparable`)

a <- na_comparable(a)
a == b
# [1]  TRUE  TRUE FALSE
b == a
# [1]  TRUE  TRUE FALSE
a != b
# [1] FALSE FALSE  TRUE
b != a
# [1] FALSE FALSE  TRUE

使用这种方法,如果您需要更新以前缺席的data.frame(a=c(1,NA,3),b=c(1,NA,4)) %>% mutate(a = na_comparable(a), c = a==b, d= a!=b) # a b c d # 1 1 1 TRUE FALSE # 2 NA NA TRUE FALSE # 3 3 4 FALSE TRUE 帐户的代码,您可能会设置一次NAs调用,而不是转换您的初始数据或替换所有na_comparable ==下线。

答案 3 :(得分:4)

如何使用identical()

中包含的mapply()
a <- c( 1 , 2 , 3 )
b <- c( 1 , 2 , 4 )
mapply(identical,a,b)
#[1]  TRUE  TRUE FALSE

a <- c( 1 , NA , 3 ) 
b <- c( 1 , NA , 4 )
mapply(identical,a,b)
#[1]  TRUE  TRUE FALSE

a <- c( 1 , NA , 3 ) 
b <- c( 1 , 2 , 4 )
mapply(identical,a,b)
#[1]  TRUE FALSE FALSE

此外,如果您需要比较计算结果,您可以摆脱identical()并像isTRUE(all.equal())那样使用

mapply(FUN=function(x,y){isTRUE(all.equal(x,y))}, a, b)

给出相同的结果,但可以更好地处理舍入问题。  如

a<-.3/3
b<-.1
mapply(FUN=function(x,y){isTRUE(all.equal(x,y))}, a, b)
#[1] TRUE

mapply(identical,a,b)
#[1] FALSE

我认为最后一个例子会搞砸很多建议的解决方案 - 但切换到all.equal代替==可能适用于所有这些解决方案。