提高循环内bind_rows的速度(3000个数据帧)

时间:2019-05-10 11:26:01

标签: r dplyr tidyverse tibble

我已经解析了一个非常大的数据库,其中包含超过500万条数据线和40列。 出于实际原因,将结果分成小的“ .Rdata”文件。 总共我有3000多个文件,每个文件的大小最大为1Mb。

我设计了一个快速循环,使用dplyr将这些文件组合为一个单独的数据帧,但是这非常慢,我相信可以有更快的方法。

我尝试使用预先分配的矩阵,但是我的数据既是文本又是数字,并且出现错误。 使用基本R时,数据帧甚至更慢。

list_files = as.data.frame(list.files(path = "output", pattern = 'Rdata'))
names(list_files) = 'full_name'

list_files = list_files %>% 
    separate(full_name, sep ="_", into = c('col1','col2')) %>% 
        separate(col2, sep = '.R', into = c('col3','col4')) %>%
            mutate(col3 = as.numeric(col3)) %>% 
            arrange(col3) %>%  mutate(col3 = as.character(col3))

datax <- c()

for(i in 1:length(list_files$col3))
    {
        load(paste('output/MyData_',list_files$col3[i],'.Rdata',sep=''))
##here loads results_df2
        datax = datax %>% bind_rows(results_df2)
        if((i %% 100) == 0) { print(i)}
    }

有没有更有效的方式编写此循环?

3 个答案:

答案 0 :(得分:1)

使用purrr::mappurrr::reduce,您可以导入和绑定它们,而无需使用for循环。

library(purrr)
library(dplyr)

# save data frame as rds
# mtcars %>% saveRDS("mtcars1.rds")
# mtcars %>% saveRDS("mtcars2.rds")

# list files
files <- list.files(pattern = "rds")

# read and bind
files %>% map(readRDS) %>% 
                reduce(bind_rows)

答案 1 :(得分:1)

data.table的另一个选项

library(data.table)
library(dplyr)

list_files = list.files(path = "output", pattern = 'Rdata')
lapply(list_files, function(x) load(x) %>% data.table() ) %>% rbindlist()  

答案 2 :(得分:0)

使用 dplyr bind_rows

system.time( for(i in 1:50) { datax = datax %>% bind_rows( ll[[i]]) })

结果

user  system elapsed 
2.70    0.15    2.87  

使用 rbindlist 功能

system.time(ans1 <- rbindlist(ll))

结果

 user  system elapsed 
 0.05    0.00    0.04 

这正是我所需要的。问题得到了回答。谢谢大家。