我有一些代码,在一个地方最终得到一个数据框列表,我真的想转换成一个大数据框。
我得到了earlier question的一些指示,它试图做类似但更复杂的事情。
这是我开始的一个例子(为了说明,这是非常简化的):
listOfDataFrames <- vector(mode = "list", length = 100)
for (i in 1:100) {
listOfDataFrames[[i]] <- data.frame(a=sample(letters, 500, rep=T),
b=rnorm(500), c=rnorm(500))
}
我目前正在使用这个:
df <- do.call("rbind", listOfDataFrames)
答案 0 :(得分:180)
另一个选择是使用plyr函数:
df <- ldply(listOfDataFrames, data.frame)
这比原来慢一点:
> system.time({ df <- do.call("rbind", listOfDataFrames) })
user system elapsed
0.25 0.00 0.25
> system.time({ df2 <- ldply(listOfDataFrames, data.frame) })
user system elapsed
0.30 0.00 0.29
> identical(df, df2)
[1] TRUE
我的猜测是使用do.call("rbind", ...)
将是你会发现的最快的方法,除非你可以做一些事情,比如(a)使用矩阵而不是data.frames和(b)预先分配最终的矩阵分配给它而不是增长它。
编辑1 :
根据Hadley的评论,这是来自CRAN的rbind.fill
的最新版本:
> system.time({ df3 <- rbind.fill(listOfDataFrames) })
user system elapsed
0.24 0.00 0.23
> identical(df, df3)
[1] TRUE
这比rbind更容易,并且速度稍快(这些时间在多次运行中保持不变)。据我了解,the version of plyr
on github甚至比这更快。
答案 1 :(得分:98)
为了完整起见,我认为这个问题的答案需要更新。 “我的猜测是使用do.call("rbind", ...)
将会是你发现的最快的方法......”2010年5月和之后的一段时间可能是这样,但在2011年9月左右,新功能{{1} } rbindlist
包版本1.8.2中引入了一个注释,“这与data.table
相同,但更快”。多快了?
do.call("rbind",l)
library(rbenchmark)
benchmark(
do.call = do.call("rbind", listOfDataFrames),
plyr_rbind.fill = plyr::rbind.fill(listOfDataFrames),
plyr_ldply = plyr::ldply(listOfDataFrames, data.frame),
data.table_rbindlist = as.data.frame(data.table::rbindlist(listOfDataFrames)),
replications = 100, order = "relative",
columns=c('test','replications', 'elapsed','relative')
)
答案 2 :(得分:55)
代码:
library(microbenchmark)
dflist <- vector(length=10,mode="list")
for(i in 1:100)
{
dflist[[i]] <- data.frame(a=runif(n=260),b=runif(n=260),
c=rep(LETTERS,10),d=rep(LETTERS,10))
}
mb <- microbenchmark(
plyr::rbind.fill(dflist),
dplyr::bind_rows(dflist),
data.table::rbindlist(dflist),
plyr::ldply(dflist,data.frame),
do.call("rbind",dflist),
times=1000)
ggplot2::autoplot(mb)
会话:
R version 3.3.0 (2016-05-03)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 7 x64 (build 7601) Service Pack 1
> packageVersion("plyr")
[1] ‘1.8.4’
> packageVersion("dplyr")
[1] ‘0.5.0’
> packageVersion("data.table")
[1] ‘1.9.6’
<强>更新强>: 重新运行2018年1月31日。跑在同一台电脑上。新版本的软件包。为种子爱好者添加了种子。
set.seed(21)
library(microbenchmark)
dflist <- vector(length=10,mode="list")
for(i in 1:100)
{
dflist[[i]] <- data.frame(a=runif(n=260),b=runif(n=260),
c=rep(LETTERS,10),d=rep(LETTERS,10))
}
mb <- microbenchmark(
plyr::rbind.fill(dflist),
dplyr::bind_rows(dflist),
data.table::rbindlist(dflist),
plyr::ldply(dflist,data.frame),
do.call("rbind",dflist),
times=1000)
ggplot2::autoplot(mb)+theme_bw()
R version 3.4.0 (2017-04-21)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 7 x64 (build 7601) Service Pack 1
> packageVersion("plyr")
[1] ‘1.8.4’
> packageVersion("dplyr")
[1] ‘0.7.2’
> packageVersion("data.table")
[1] ‘1.10.4’
答案 3 :(得分:52)
使用dplyr包中的bind_rows():
bind_rows(list_of_dataframes, .id = "column_label")
答案 4 :(得分:46)
There is also bind_rows(x, ...)
in dplyr
.
> system.time({ df.Base <- do.call("rbind", listOfDataFrames) })
user system elapsed
0.08 0.00 0.07
>
> system.time({ df.dplyr <- as.data.frame(bind_rows(listOfDataFrames)) })
user system elapsed
0.01 0.00 0.02
>
> identical(df.Base, df.dplyr)
[1] TRUE
答案 5 :(得分:13)
这是另一种方法可以做到这一点(只需将其添加到答案中,因为reduce
是一种非常有效的功能工具,经常被忽略作为循环的替代。在这种特殊情况下,这些都没有明显更快比do.call)
使用基数R:
df <- Reduce(rbind, listOfDataFrames)
或者,使用tidyverse:
library(tidyverse) # or, library(dplyr); library(purrr)
df <- listOfDataFrames %>% reduce(bind_rows)
答案 6 :(得分:11)
如何在tidyverse中完成:
"-A10080008?".match(/-A\d+8\?/)
答案 7 :(得分:8)
想要比较一些最近答案的人的更新视觉效果(我想比较purrr和dplyr解决方案)。基本上我结合了@TheVTM和@rmf的答案。
代码:
library(microbenchmark)
library(data.table)
library(tidyverse)
dflist <- vector(length=10,mode="list")
for(i in 1:100)
{
dflist[[i]] <- data.frame(a=runif(n=260),b=runif(n=260),
c=rep(LETTERS,10),d=rep(LETTERS,10))
}
mb <- microbenchmark(
dplyr::bind_rows(dflist),
data.table::rbindlist(dflist),
purrr::map_df(dflist, bind_rows),
do.call("rbind",dflist),
times=500)
ggplot2::autoplot(mb)
会话信息:
sessionInfo()
R version 3.4.1 (2017-06-30)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 7 x64 (build 7601) Service Pack 1
包版本:
> packageVersion("tidyverse")
[1] ‘1.1.1’
> packageVersion("data.table")
[1] ‘1.10.0’
答案 8 :(得分:6)
唯一缺少data.table
的解决方案是标识符列,以便知道数据来自哪个数据帧。
这样的事情:
df_id <- data.table::rbindlist(listOfDataFrames, idcol = TRUE)
idcol
参数添加一列(.id
),用于标识列表中包含的数据框的来源。结果看起来像这样:
.id a b c
1 u -0.05315128 -1.31975849
1 b -1.00404849 1.15257952
1 y 1.17478229 -0.91043925
1 q -1.65488899 0.05846295
1 c -1.43730524 0.95245909
1 b 0.56434313 0.93813197