应用错误收集

我想用sparklyr读取SELECTED个文件。我在一个文件夹中有多个csv文件（例如a1.csv，a2.csv，a3.csv，a4.csv，a5.csv），我想阅读a2.csv，a3.csv，a4.csv如果可能的话，一次下载文件。

我知道我可以使用spark_read_csv(sc, "cash", "/dir1/folder1/a2")读取csv文件，所以我尝试了

a_all <- data.frame(col1=integer(),col2=integer())
a_all <- sdf_copy_to(sc, a_all, "a_all")


for(i in 2:4){
     tmp1 <- spark_read_csv(sc=sc, name="tmp1", paste0("/dir1/folder1/a",i))
     a_all <- sdf_bind_rows(a_all, tmp1)
}

因此，我将得到一个spark_tbl，它绑定了a2.csv，a3.csv，a4.csv文件rbind(a2,a3,a4)。

我认为可以通过使用path=来简化操作（也许没有for循环），但是我不确定如何在文件夹中仅选择几个csv文件。请帮忙！

如何使用sparklyr读取文件夹中的选定多个文件？

0 个答案: