在Spark 2.0中,我可以将多个文件路径组合到一个负载中(参见例如How to import multiple csv files in a single load?)。
如何使用sparklyr的spark-read-csv实现这一目标?
答案 0 :(得分:3)
事实证明,sparklyr中文件路径的通配符的使用与SparkR相同,因此可以将多个文件夹合并为一个调用。
答案 1 :(得分:0)
代码示例,以读取HDFS上特定文件夹的所有子文件夹中的几个编号的CSV文件:
spark_read_csv(sc, path = "hdfs:///folder/subfolder_*/file[0-9].csv")
请注意,根据生成对象的大小,您可能需要设置参数memory = FALSE。