从目录和子目录将文件读入pyspark数据帧

时间:2019-10-14 08:36:40

标签: pyspark pyspark-sql

我具有以下内容,可以读取目录中的所有文件,但是我也在努力获取子目录。我不会总是知道子目录是什么,因此无法明确定义它。

有人可以建议我吗?

df = my_spark.read.format("csv").option("header", "true").load(yesterday+"/*.csv")

2 个答案:

答案 0 :(得分:1)

要在其中读取所有子目录的目录位置后使用通配符。

"path/*/*"

答案 1 :(得分:0)

感谢Joby

  

您可以尝试以这种方式提供通配符,并查看“ path / / ” – Joby 23   小时前