我想用sparklyr读取SELECTED个文件。我在一个文件夹中有多个csv文件(例如a1.csv,a2.csv,a3.csv,a4.csv,a5.csv),我想阅读a2.csv,a3.csv,a4.csv如果可能的话,一次下载文件。
我知道我可以使用spark_read_csv(sc, "cash", "/dir1/folder1/a2")
读取csv文件,所以我尝试了
a_all <- data.frame(col1=integer(),col2=integer())
a_all <- sdf_copy_to(sc, a_all, "a_all")
for(i in 2:4){
tmp1 <- spark_read_csv(sc=sc, name="tmp1", paste0("/dir1/folder1/a",i))
a_all <- sdf_bind_rows(a_all, tmp1)
}
因此,我将得到一个spark_tbl,它绑定了a2.csv,a3.csv,a4.csv文件rbind(a2,a3,a4)
。
我认为可以通过使用path=
来简化操作(也许没有for循环),但是我不确定如何在文件夹中仅选择几个csv文件。请帮忙!