Question

在Spark 2.0中，我可以将多个文件路径组合到一个负载中（参见例如How to import multiple csv files in a single load?）。

如何使用sparklyr的spark-read-csv实现这一目标？

Answer 1

事实证明，sparklyr中文件路径的通配符的使用与SparkR相同，因此可以将多个文件夹合并为一个调用。

Answer 2

代码示例，以读取HDFS上特定文件夹的所有子文件夹中的几个编号的CSV文件：

spark_read_csv(sc, path = "hdfs:///folder/subfolder_*/file[0-9].csv")

请注意，根据生成对象的大小，您可能需要设置参数memory = FALSE。