POSIXct对象是NA,但is.na()返回FALSE

时间:2018-04-18 13:47:37

标签: r date dplyr lubridate posixct

我在R中遇到了一些非常特殊的行为。我认为它甚至可能是一个错误,但我在这里要求检查某人是否熟悉它或知道解决方案。

我要做的是以下内容:我有一个数据框,其中日期分配给组。我正在对这些组执行for循环,其中我计算了该组中日期的最大值。如果此最大日期为next,我想跳过循环的其余部分(NA)。但是,这并没有正确发生。

请考虑以下代码:

library(dplyr)
library(lubridate)
a <- data.frame(group = c(1,1,1,1,1, 2,2,2,2, 3),
            ds = as_datetime(dmy('01-01-2018', NA, '03-01-2018', NA, '05-01-2018',
                                 '02-01-2018', '04-01-2018', '06-01-2018', '08-01-2018',
                                 NA)))

for (i in 1:3) {
  max_ds <- a %>% filter(group == i) %>% .$ds %>% max(na.rm = T)
  if (is.na(max_ds)) { next }
  print(max_ds)
}

预期输出为:

# [1] "2018-01-05 UTC"
# [1] "2018-01-08 UTC"

但是,获得的输出是:

# [1] "2018-01-05 UTC"
# [1] "2018-01-08 UTC"
# [1] NA

这个谜团的症结似乎在于na.rm条款。如果删除,则会发生以下情况:

for (i in 1:nr_groups) {
  max_ds <- a %>% filter(group == i) %>% .$ds %>% max()
  if (is.na(max_ds)) { next }
  print(max_ds)
}

# [1] "2018-01-08 UTC"

这正是预期的结果。

有什么想法吗?

1 个答案:

答案 0 :(得分:3)

问题是您将NAna.rm = TRUE一起传递。然后发生这种情况:

max(NA, na.rm = TRUE)
#[1] -Inf
#Warning message:
#In max(NA, na.rm = TRUE) : no non-missing arguments to max; returning -Inf

结果显然不是NA。如果您传递日期时间变量,结果仍然不是NA,而是打印为NA

max(as.POSIXct(NA), na.rm = TRUE)
#[1] NA
#Warning message:
#In max.default(NA_real_, na.rm = TRUE) :
#  no non-missing arguments to max; returning -Inf
as.POSIXct(-Inf, origin = "1900-01-01")
#[1] NA
unclass(as.POSIXct(-Inf, origin = "1900-01-01"))
#[1] -Inf
#attr(,"tzone")
#[1] ""

您可能希望使用is.finite进行测试:

!is.finite(max(as.POSIXct(NA), na.rm = TRUE))
#[1] TRUE
#Warning message:
#In max.default(NA_real_, na.rm = TRUE) :
#  no non-missing arguments to max; returning -Inf