如何使用sparklyr读取文件夹中的选定多个文件?

时间:2019-01-24 07:37:02

标签: r apache-spark for-loop data-binding sparklyr

我想用sparklyr读取SELECTED个文件。我在一个文件夹中有多个csv文件(例如a1.csv,a2.csv,a3.csv,a4.csv,a5.csv),我想阅读a2.csv,a3.csv,a4.csv如果可能的话,一次下载文件。

我知道我可以使用spark_read_csv(sc, "cash", "/dir1/folder1/a2")读取csv文件,所以我尝试了

a_all <- data.frame(col1=integer(),col2=integer())
a_all <- sdf_copy_to(sc, a_all, "a_all")


for(i in 2:4){
     tmp1 <- spark_read_csv(sc=sc, name="tmp1", paste0("/dir1/folder1/a",i))
     a_all <- sdf_bind_rows(a_all, tmp1)
}

因此,我将得到一个spark_tbl,它绑定了a2.csv,a3.csv,a4.csv文件rbind(a2,a3,a4)

我认为可以通过使用path=来简化操作(也许没有for循环),但是我不确定如何在文件夹中仅选择几个csv文件。请帮忙!

0 个答案:

没有答案