我在R中遇到了一些非常特殊的行为。我认为它甚至可能是一个错误,但我在这里要求检查某人是否熟悉它或知道解决方案。
我要做的是以下内容:我有一个数据框,其中日期分配给组。我正在对这些组执行for循环,其中我计算了该组中日期的最大值。如果此最大日期为next
,我想跳过循环的其余部分(NA
)。但是,这并没有正确发生。
请考虑以下代码:
library(dplyr)
library(lubridate)
a <- data.frame(group = c(1,1,1,1,1, 2,2,2,2, 3),
ds = as_datetime(dmy('01-01-2018', NA, '03-01-2018', NA, '05-01-2018',
'02-01-2018', '04-01-2018', '06-01-2018', '08-01-2018',
NA)))
for (i in 1:3) {
max_ds <- a %>% filter(group == i) %>% .$ds %>% max(na.rm = T)
if (is.na(max_ds)) { next }
print(max_ds)
}
预期输出为:
# [1] "2018-01-05 UTC"
# [1] "2018-01-08 UTC"
但是,获得的输出是:
# [1] "2018-01-05 UTC"
# [1] "2018-01-08 UTC"
# [1] NA
这个谜团的症结似乎在于na.rm
条款。如果删除,则会发生以下情况:
for (i in 1:nr_groups) {
max_ds <- a %>% filter(group == i) %>% .$ds %>% max()
if (is.na(max_ds)) { next }
print(max_ds)
}
# [1] "2018-01-08 UTC"
这正是预期的结果。
有什么想法吗?
答案 0 :(得分:3)
问题是您将NA
与na.rm = TRUE
一起传递。然后发生这种情况:
max(NA, na.rm = TRUE)
#[1] -Inf
#Warning message:
#In max(NA, na.rm = TRUE) : no non-missing arguments to max; returning -Inf
结果显然不是NA
。如果您传递日期时间变量,结果仍然不是NA
,而是打印为NA
:
max(as.POSIXct(NA), na.rm = TRUE)
#[1] NA
#Warning message:
#In max.default(NA_real_, na.rm = TRUE) :
# no non-missing arguments to max; returning -Inf
as.POSIXct(-Inf, origin = "1900-01-01")
#[1] NA
unclass(as.POSIXct(-Inf, origin = "1900-01-01"))
#[1] -Inf
#attr(,"tzone")
#[1] ""
您可能希望使用is.finite
进行测试:
!is.finite(max(as.POSIXct(NA), na.rm = TRUE))
#[1] TRUE
#Warning message:
#In max.default(NA_real_, na.rm = TRUE) :
# no non-missing arguments to max; returning -Inf