确定数据框是否为空

时间:2015-01-23 14:15:36

标签: r dataframe

我有一个数据框,如果它是空的,我想测试真的很快。我知道没有行或有整数(没有缺失值)。到目前为止,我已经测试了五种不同的选项(见下文)。有人有更快的解决方案吗?

df <- data.frame(a = integer(0), b = integer(0), c = integer(0))

fa <- function(){
  nrow(df) > 0
}

fb <- function(){
  any(dim(df)[1L])
}

fc <- function(){
  (dim(df)[1L]) != 0
}

fd <- function() {
  any(.subset2(df, 1)[1])
}

fe <- function() {
  any(.subset2(df, 1))
}

library(microbenchmark)
microbenchmark(fa(), fb(), fc(), fd(), fe(), times = 1000)

结果:

> microbenchmark(fa(), fb(), fc(), fd(), fe(), times = 1000)
Unit: nanoseconds
 expr  min   lq     mean median    uq   max neval  cld
 fa() 5664 6725 8672.462   6725 11680 47777  1000   cd
 fb() 6017 7078 8979.645   7079 12034 58041  1000    d
 fc() 6017 6372 8492.680   6725 11679 25127  1000   c 
 fd() 1062 1770 2214.170   1771  2832 14511  1000  b  
 fe()  354 1062 1359.498   1063  1770 12741  1000 a   

1 个答案:

答案 0 :(得分:6)

由于您测试的大多数对象都不可能是空的,因此您应该更关注函数在非空数据框架上的计时。您还应该编译它们以了解它们在包中的执行方式。

library(microbenchmark)
library(compiler)

fa <- cmpfun({function(){
  nrow(df) > 0L
}})

fb <- cmpfun({function(){
  any(dim(df)[1L])
}})

fc <- cmpfun({function(){
  dim(df)[1L] != 0L
}})

fd <- cmpfun({function() {
  any(.subset2(df, 1L)[1L])
}})

fe <- cmpfun({function() {
  any(.subset2(df, 1L))
}})

ff <- cmpfun({function() {
  length(.subset2(df, 1L)) > 0L
}})

fg <- cmpfun({function() {
  as.logical(length(.subset2(df, 1L)))
}})

对空data.frame的测试显示所有方法大致相同。

df <- data.frame(a = integer(0), b = integer(0), c = integer(0))
microbenchmark(fa(), fb(), fc(), fd(), fe(), ff(), fg(), times = 1000)

# Unit: nanoseconds
#  expr  min     lq median     uq   max neval
#  fa() 5685 5969.0 6165.0 6608.5 20515  1000
#  fb() 6147 6443.0 6651.0 7214.0 18117  1000
#  fc() 5726 5984.0 6152.0 6457.5 38404  1000
#  fd() 1210 1411.0 1573.0 1764.5  4933  1000
#  fe()  635  871.0 1003.0 1105.5 10225  1000
#  ff()  513  727.5  861.5  941.0  5691  1000
#  fg()  681  868.5  981.5 1080.0  2982  1000

对非空数据框架的测试显示,其中一个功能表现非常糟糕,其余功能大致相同。

df <- data.frame(a = integer(1e6), b = integer(1e6), c = integer(1e6))
microbenchmark(fa(), fb(), fc(), fd(), fe(), ff(), fg(), times = 1000)

# Unit: nanoseconds
#  expr     min      lq    median        uq      max neval
#  fa()    6569    7142    8782.0   12364.5    46749  1000
#  fb()    7034    7682    9334.5   18334.0    53172  1000
#  fc()    6539    7110    8453.5   20585.5    49912  1000
#  fd()    1171    1585    2507.5    5021.5    17641  1000
#  fe() 4340209 4413042 4460973.5 5468688.5 26045766  1000
#  ff()     637     984    1489.0    3646.5    14212  1000
#  fg()     767    1161    2401.0    4078.5   236958  1000