data.frame和matrix对象的不同子集方法之间的时间差

时间:2017-09-12 13:33:49

标签: r matrix dataframe

考虑以下基准测试(Windows机器上的R 3.4.1):

library(rbenchmark)

mtx <- matrix(runif(1e8), ncol = 100)
df <- as.data.frame(mtx)

colnames(mtx) <- colnames(df) <- paste0("V", 1:100)

benchmark(
  mtx[5000:7000, 80],
  mtx[5000:7000, "V80"],
  mtx[, "V80"][5000:7000],
  mtx[, "V80", drop = FALSE][5000:7000, ],
  mtx[5000:7000, , drop = FALSE][, "V80"],
  #mtx$V80[5000:7000], # does not apply
  replications = 5000
)

##                                      test replications elapsed relative user.self sys.self user.child sys.child
## 4 mtx[, "V80", drop = FALSE][5000:7000, ]         5000   64.71  588.273     47.44    16.61         NA        NA
## 3                 mtx[, "V80"][5000:7000]         5000   72.15  655.909     52.90    18.18         NA        NA
## 2                   mtx[5000:7000, "V80"]         5000    0.11    1.000      0.11     0.00         NA        NA
## 5 mtx[5000:7000, , drop = FALSE][, "V80"]         5000    7.47   67.909      5.89     1.47         NA        NA
## 1                      mtx[5000:7000, 80]         5000    0.13    1.182      0.12     0.00         NA        NA

benchmark(
  df[5000:7000, 80],
  df[5000:7000, "V80"],
  df[, "V80"][5000:7000],
  df[, "V80", drop = FALSE][5000:7000, ],
  df[5000:7000, , drop = FALSE][, "V80"],
  df$V80[5000:7000],
  replications = 5000
)

##                                     test replications elapsed relative user.self sys.self user.child sys.child
## 6                      df$V80[5000:7000]         5000    0.13    1.000      0.12     0.00         NA        NA
## 4 df[, "V80", drop = FALSE][5000:7000, ]         5000    0.33    2.538      0.33     0.00         NA        NA
## 3                 df[, "V80"][5000:7000]         5000    0.17    1.308      0.17     0.00         NA        NA
## 2                   df[5000:7000, "V80"]         5000    0.15    1.154      0.16     0.00         NA        NA
## 5 df[5000:7000, , drop = FALSE][, "V80"]         5000   13.63  104.846     12.91     0.39         NA        NA
## 1                      df[5000:7000, 80]         5000    0.19    1.462      0.17     0.00         NA        NA

时差非常显着。这是为什么? 推荐的子集化方法是什么?为什么?鉴于基准,对于data.frame而言,矩阵和mtx[i, colname]的{​​{1}}方式(但似乎没有多大区别)似乎是最节省时间的,但是有什么一般的原因可以解释为什么我们应该更喜欢任何一种方法吗?

1 个答案:

答案 0 :(得分:1)

主要原因在于矩阵和data.frames背后的R数据结构。矩阵基本上是具有rownumber x columnnumber(主要是数字)条目的对象(通过R默认矩阵不稀疏)和维度属性。出于这个原因,你的前两个命令

mtx[5000:7000, 80],
mtx[5000:7000, "V80"]

再次提取矩阵,其中R不仅分配值而且还创建新的矩阵对象而不是简单的向量,这些对象是R的默认对象。

另一方面,R中的data.frame定义为一种特殊类型的列表对象,其中每个列对象的长度必须相同,而列可能包含不同类型的变量(数字,字符串等)。 )。矩阵只能包含一种类型的变量,默认情况下它是最常见的变量。因此,

df[5000:7000, 80]

提取第80列的向量,然后提取该位置5000-7000的值。对于R来说,向量处理比矩阵对象更简单,因此,这要快得多。

但是,如果选择drop = FALSE,则在选择第80列时强制R不能使用简单的矢量对象,而是将其视为data.frame / list对象。列表是最常用和最灵活的R对象类型,因为它们的大小和条目没有限制,但这是因为它们处理起来最困难和最耗时,正如您在比较时所观察到的那样

mtx[5000:7000, , drop = FALSE][, "V80"]
df[5000:7000, , drop = FALSE][, "V80"]

从数据框中获取另一个data.frame / list,而矩阵仍然返回一个矩阵,该矩阵仍然比列表更快处理。