如何在R中初始化空数据帧(同时批量列)

时间:2013-12-10 17:33:43

标签: r dataframe

我找到了如何初始化3或4维的空数据框。就像

df <- data.frame(Date=as.Date(character()),
             File=character(), 
             User=numeric(), 
             stringsAsFactors=FALSE)

但是,使用大量列名初始化空data.frame的最有效方法是什么。像

mynames <- paste("hello", c(1:10000))

我尝试的错误方法是:

df <- data.frame(mynames=numeric())

事先非常感谢

2 个答案:

答案 0 :(得分:30)

也许这个 -

df <- data.frame(matrix(ncol = 10000, nrow = 0))
colnames(df) <- paste0("hello", c(1:10000))

和@joran的建议 - df <- setNames(data.frame(matrix(ncol = 10000, nrow = 0)),paste0("hello", c(1:10000)))

答案 1 :(得分:0)

我会使用setDF(或setDT,如果您更喜欢data.table作为输出)和setnames执行此操作:

library(data.table)

DF <- setnames(setDF(lapply(integer(1e4), function(...) character(0L))),
               paste0("hello", 1:1e4))
head(names(DF))
# [1] "hello1" "hello2" "hello3" "hello4" "hello5" "hello6"

这两个步骤(setnamessetDF)都比base对应的效率更高,因为没有副本。

基准:

library(microbenchmark)

microbenchmark(times = 1000,
               base = {df <- data.frame(matrix(ncol = 10000, nrow = 0))
               colnames(df) <- paste0("hello", c(1:10000))},
               DT = setnames(setDF(lapply(integer(1e4), 
                                          function(...) character(0L))),
                             paste0("hello", 1:1e4)))
# Unit: milliseconds
#  expr      min       lq     mean   median       uq      max neval cld
#  base 26.77218 30.94223 37.30173 36.76721 37.80338 102.2379  1000   b
#    DT 16.68004 23.18865 30.60573 29.18421 36.03590 178.1045  1000  a