sparklyr软件包中的sdf_bind函数如何工作?

时间:2019-12-26 08:47:07

标签: rstudio sparklyr sdf

最近,我对如何使用sparklyr::spark_read*有效地将本地文件读入spark感到困惑。因此,我创建了一个for循环,其中每个步骤都将创建占整个数据集1个比例的临时tbl_spark,表示1天数据,如下所示:

for (i in seq) {
    tmp_par <- spark_read_parquet(
        sc, 
        paste0("spark_dataframe_name_",i), 
        paste0("path",i,"/*.parquet"), 
        overwrite = T)
    table_name <- sdf_bind_rows(table_name, tmp_par)
}

with table_name以前是通过使用spark_read_parquet来创建一部分数据集(i = 0)

假设整个数据集将包含30天的数据。我只是想知道sdf_bind*函数是否会在每个步骤中先加载table_name然后将rbind加载到tmp_par中,这意味着第1天将与第2天绑定在一起,并且这也意味着该内存仅需携带2天的数据就可以绑定到下一步。还是要等到循环结束(i = 30)才能将rbind的所有30天数据都存储到table_name中?

0 个答案:

没有答案