Question

我找到了组内的最小日期。很多时候，该组仅包含缺少日期（在这种情况下，我更喜欢分配NA之类的内容）。

NA似乎分配正确，但他们没有像我预期的那样回复is.na()。 当一个单元格显示为NA时，is.na()输出意外地为FALSE。

library(magrittr)
ds_visit <- tibble::tribble(
  ~subject_id,                   ~date,
           1L,  as.Date("2017-01-01" ),
           1L,  as.Date("2017-02-01" ), 

           2L,  as.Date(NA_character_),        
           2L,  as.Date("2017-01-02" ),

           3L,  as.Date(NA_character_),        
           3L,  as.Date(NA_character_),   

           4L,  as.Date(NA_character_),        
           4L,  as.Date(NA_character_)       
)

ds_subject <- ds_visit %>% 
  # as.data.frame() %>% 
  dplyr::group_by(subject_id) %>% 
  dplyr::mutate(
    date_na     = is.na(date),          # Works as expected
    date_min    = min(date, na.rm=T),   # Works as expected

    date_min_na = is.na(date_min)       # Does NOT work as expected.
  ) %>% 
  dplyr::ungroup() # %>% as.data.frame()

ds_visit看起来很正确。 ds_subject对我来说是正确的，除了最后一栏。

ds_subject（最后一列的最后四行是意外的。）

# A tibble: 8 x 5
  subject_id date       date_na date_min   date_min_na
       <int> <date>     <lgl>   <date>     <lgl>      
1          1 2017-01-01 F       2017-01-01 F          
2          1 2017-02-01 F       2017-01-01 F          
3          2 NA         T       2017-01-02 F          
4          2 2017-01-02 F       2017-01-02 F          
5          3 NA         T       NA         F         # Should be 'T'?
6          3 NA         T       NA         F         # Should be 'T'?
7          4 NA         T       NA         F         # Should be 'T'?
8          4 NA         T       NA         F         # Should be 'T'?

我在几个维度上都没有成功，包括：（a）操作系统，（b）R版本（包括3.4.3 patched），（c）dplyr＆amp; rlang版本（包括CRAN和GitHub版本）和（d）tibble与data.frame。作为临时解决方法（此处未显示），我在找到分钟之前将日期转换为字符，然后转换回日期。

警告消息（从主题3和4生成）：即使警告消息显示返回Inf，打印数据集时也会显示NA。（此行为与min(as.Date(NA), na.rm=T)）一致。

1: In min.default(c(NA_real_, NA_real_), na.rm = TRUE) :
  no non-missing arguments to min; returning Inf
2: In min.default(c(NA_real_, NA_real_), na.rm = TRUE) :
  no non-missing arguments to min; returning Inf

对日期列的进一步检查似乎与上面的数据集视图一致。类型是日期，最后四个单元格是NA，而不是无穷大。

> str(ds_subject$date_min)
 Date[1:8], format: "2017-01-01" "2017-01-01" "2017-01-02" "2017-01-02" NA NA NA NA

这是一个错误，还是我滥用了什么？这是相关的NA生成而不是无穷大吗？

编辑1

@ eipi10和@mtoto下面的链接帮助我更好地理解。谢谢。我不是很高兴'NA'打印而不是'Inf'，但我会试着记住它。

要解决这个特定情况，是否有比base::min()更好的功能？

我想要一个可以包含在dplyr::mutate() / dplyr::summarize()子句中的函数，其行为与SQL类似。（当is.na()替换summarize()时，最初的dplyr示例仍存在mutate()问题。

例如：

"
  SELECT 
    subject_id,
    MIN(date) AS date_min
    --MIN(date) OVER (PARTITION BY subject_id) AS date_min --`OVER` not supported by sqlite
  FROM ds_visit
  GROUP BY subject_id
" %>% 
  sqldf::sqldf() %>% 
  tibble::as_tibble() %>% 
  dplyr::mutate(
    # date_min_na_1 = is.na(date_min), #Before conversion back to date (from numeric); same result as below.
    date_min      = as.Date(date_min, "1970-01-01"),
    date_min_na   = is.na(date_min)
  )

结果，缺少的组具有良好的NA值，可以按预期响应is.na()：

# A tibble: 4 x 3
  subject_id date_min   date_min_na
       <int> <date>     <lgl>      
1          1 2017-01-01 F          
2          2 2017-01-02 F          
3          3 NA         T          
4          4 NA         T

编辑2

我发现此问题被标记为R Inf when it has class Date is printing NA的副本。我看到了很多重叠（我从这个问题中学到了很多，以及我的初始代码是如何产生问题的），但我相信它们是不同的问题。

此问题涉及分组，并在没有非缺失值时返回NA。我对base::min()不感兴趣。如上所述，理想情况下，base::min()完全可以避免使用已建立的＆amp;经过测试的函数/方法，其行为更像SQL。

（虽然我很感谢@ alistaire的base:min()包装器，并且如果不存在已建立的功能/方法，我将使用它。）

Answer 1

问题是min na.rm = TRUE和所有 - NA值返回Inf（max等效返回-Inf），但{ {1}}无法显示这些值，因此将其打印为print.Date，即使这不是存储值。

NA

如果您愿意，可以重新定义打印方法，以便打印出您喜欢的内容，例如

min(NA, na.rm = TRUE)
#> Warning in min(NA, na.rm = TRUE): no non-missing arguments to min;
#> returning Inf
#> [1] Inf

x <- min(as.Date(NA), na.rm = TRUE)
#> Warning in min.default(structure(NA_real_, class = "Date"), na.rm = TRUE):
#> no non-missing arguments to min; returning Inf

x
#> [1] NA

is.na(x)
#> [1] FALSE

x == Inf
#> [1] TRUE

要实际获得所需的结果，请指定如果所有值均为print.Date <- function(x, ...){ if(x == Inf | x == -Inf) { print(as.numeric(x)) } else { base::print.Date(x, ...) } } x #> [1] Inf应返回的内容：

NA

它并不简洁，但在行为方面完全可以预测。

使用dplyr :: group_by（）查找具有NAs的最小日期

编辑1

编辑2

1 个答案: