使用R中的min()返回NA而不是Inf

时间:2018-01-19 14:10:33

标签: r dplyr plyr min

请考虑以下事项:

我最近'发现'了很棒的plyrdplyr软件包,并使用这些软件包来分析数据框中可用的患者数据。这样的数据框可能如下所示:

df <- data.frame(id = c(1, 1, 1, 2, 2), # patient ID
                 diag = c(rep("dia1", 3), rep("dia2", 2)), # diagnosis
                 age = c(7.8, NA, 7.9, NA, NA)) # patient age

我想总结一下中位数和平均值的所有患者的最小患者年龄。我做了以下事情:

min.age <- df %>% 
  group_by(id) %>% 
  summarise(min.age = min(age, na.rm = T))

由于数据框中有NAs,我收到警告:

`Warning message: In min(age, na.rm = T) :
no non-missing arguments to min; returning Inf`

Inf我无法以有意义的方式致电summary(df$min.age)

使用pmin()代替min会返回错误消息:

Error in summarise_impl(.data, dots) :
 Column 'in.age' must be length 1 (a summary value), not 3

我可以做些什么来避免任何Inf,而是获取NA,以便我可以继续: summary(df$min.age)

非常感谢!

7 个答案:

答案 0 :(得分:5)

您可以使用is.infinite()来检测无穷大,并ifelse将其有条件地设置为NA

#using your df and the dplyr package
min.age <- 
  df %>% 
  group_by(id) %>% 
  summarise(min.age = min(age, na.rm = T)) %>%
  mutate(min.age = ifelse(is.infinite(min.age), NA, min.age))

答案 1 :(得分:1)

float

答案 2 :(得分:1)

您的代码执行以下操作:

  1. id
  2. 将数据框拆分为多个组
  3. 将每个组中的min功能应用于age变量,同时启用na.rm=TRUE选项。
  4. 因此,对于id 1,您获得min(c(7.8, NA, 7.9), na.rm=TRUE),这与min(c(7.8, 7.9))相同,仅为7.8。

    然后,对于id 2,您获得min(c(NA, NA), na.rm=TRUE),这与min(c())相同。

    现在,一组空数字的最小值是多少? “minumum”的定义是“小于集合中所有值的值”,并且必须满足min(A)&lt; = min(B)的属性,只要B是A的子集。定义最小值的一种方法空集的意思是它是“无限”,这就是R如何对待这种情况。

    在这种情况下,你无法避免获得Inf。但您可以在链中添加另一个mutate,将任何Inf更改为您喜欢的任何内容,例如NA


    df %>% group_by(id) %>% summarize(min_age = min(age, na.rm = TRUE)) %>% 
        mutate(min_age = ifelse(is.infinite(min_age), NA, min_age))
    

答案 3 :(得分:1)

该问题已得到回答,但需要指出的是,如果所讨论的列是Date或datetime,则它在汇总表中仍将显示为NA,但实际上不是。这真令人困惑!考虑:

library(dplyr)
#> 
#> Attaching package: 'dplyr'
#> The following objects are masked from 'package:stats':
#> 
#>     filter, lag
#> The following objects are masked from 'package:base':
#> 
#>     intersect, setdiff, setequal, union
df <- data.frame(date = as.Date(c("2013-01-01", "2013-05-23", "", "2017-04-15", "", "")),
                 int = c(1L, 2L, NA, 4L, NA, NA),
                 group = rep(LETTERS[1:3],2))

s1 <- df %>% group_by(group) %>% summarise(min_date = min(date), min_int = min(int)) %>% mutate(min_date_missing = is.na(min_date), min_int_missing = is.na(min_int))
#> Warning: package 'bindrcpp' was built under R version 3.4.4
s2 <- df %>% group_by(group) %>% summarise(min_date = min(date, na.rm = TRUE), min_int = min(int, na.rm = TRUE)) %>% mutate(min_date_missing = is.na(min_date), min_int_missing = is.na(min_int))

df
#>         date int group
#> 1 2013-01-01   1     A
#> 2 2013-05-23   2     B
#> 3       <NA>  NA     C
#> 4 2017-04-15   4     A
#> 5       <NA>  NA     B
#> 6       <NA>  NA     C
s1
#> # A tibble: 3 x 5
#>   group min_date   min_int min_date_missing min_int_missing
#>   <fct> <date>       <dbl> <lgl>            <lgl>          
#> 1 A     2013-01-01      1. FALSE            FALSE          
#> 2 B     NA             NA  TRUE             TRUE           
#> 3 C     NA             NA  TRUE             TRUE
s2
#> # A tibble: 3 x 5
#>   group min_date   min_int min_date_missing min_int_missing
#>   <fct> <date>       <dbl> <lgl>            <lgl>          
#> 1 A     2013-01-01      1. FALSE            FALSE          
#> 2 B     2013-05-23      2. FALSE            FALSE          
#> 3 C     NA            Inf  FALSE            FALSE

s1[[3,2]]
#> [1] NA
s2[[3,2]]
#> [1] NA

is.na(s1[[3,2]])
#> [1] TRUE
is.na(s2[[3,2]])
#> [1] FALSE

s1[[3,2]] == Inf
#> [1] NA
s2[[3,2]] == Inf
#> [1] TRUE

s1[[3,3]]
#> [1] NA
s2[[3,3]]
#> [1] Inf

is.na(s1[[3,3]])
#> [1] TRUE
is.na(s2[[3,3]])
#> [1] FALSE

s1[[3,2]] == Inf
#> [1] NA
s2[[3,2]] == Inf
#> [1] TRUE

sessionInfo()
#> R version 3.4.3 (2017-11-30)
#> Platform: x86_64-apple-darwin15.6.0 (64-bit)
#> Running under: macOS High Sierra 10.13.5
#> 
#> Matrix products: default
#> BLAS: /Library/Frameworks/R.framework/Versions/3.4/Resources/lib/libRblas.0.dylib
#> LAPACK: /Library/Frameworks/R.framework/Versions/3.4/Resources/lib/libRlapack.dylib
#> 
#> locale:
#> [1] en_AU.UTF-8/en_AU.UTF-8/en_AU.UTF-8/C/en_AU.UTF-8/en_AU.UTF-8
#> 
#> attached base packages:
#> [1] stats     graphics  grDevices utils     datasets  methods   base     
#> 
#> other attached packages:
#> [1] bindrcpp_0.2.2 dplyr_0.7.4   
#> 
#> loaded via a namespace (and not attached):
#>  [1] Rcpp_0.12.17     utf8_1.1.3       crayon_1.3.4     digest_0.6.15   
#>  [5] rprojroot_1.3-2  assertthat_0.2.0 R6_2.2.2         backports_1.1.2 
#>  [9] magrittr_1.5     evaluate_0.10.1  pillar_1.2.1     cli_1.0.0       
#> [13] rlang_0.2.0.9001 stringi_1.1.7    rmarkdown_1.9    tools_3.4.3     
#> [17] stringr_1.3.0    glue_1.2.0       yaml_2.1.18      compiler_3.4.3  
#> [21] pkgconfig_2.0.1  htmltools_0.3.6  bindr_0.1.1      knitr_1.20      
#> [25] tibble_1.4.2

reprex package(v0.2.0.9000)于2018-06-27创建。

答案 4 :(得分:1)

甚至更简单的解决方案是hablar软件包中的s函数。在以最小值/最大值进行评估之前,它将空向量替换为NA。 @awchisholm编写的代码块可能是:

library(hablar)

min.age <- df %>% 
  group_by(id) %>% 
  summarise(min.age = min(s(age)))

免责声明自从我编写了该程序包以来,我对这种解决方案就有偏见。

答案 5 :(得分:0)

我更喜欢选择自己的无效值。说200Age的值无效。

现在可以稍微扭转min功能的使用。例如min(age, 200, na.rm = TRUE)。这可确保在缺少所有值时,年龄显示为200而不是+Infdf上的结果将是:

min.age <- df %>% 
  group_by(id) %>% 
  summarise(min.age = min(age, 200, na.rm = T))

> min.age
# A tibble: 2 x 2
#     id min.age
#  <dbl>   <dbl>
#1  1.00    7.80
#2  2.00  200 

现在,程序员如何使用/替换此无效值。

答案 6 :(得分:0)

这似乎很有趣,因为它避免了警告:

myMin <- function(vec) {
      ifelse(length(vec[!is.na(vec)]) == 0, NA_real_, min(vec, na.rm = TRUE))
    }