应用错误收集

我的AWS S3存储桶中的文本文件按如下方式组织：

my_bucket
    all_files
        folder1
            1a.txt
            1b.txt
            ...
        folder 2
           2a.txt
           ...

简而言之，存储桶包含一个主文件夹，其中包含多个子文件夹，每个子文件夹包含一堆文件。我想知道是否有一种执行方式来使用pyspark在RDD中读取所有这些文本文件。

我尝试过通配符解决方案

 sc = SparkContext()
 sc.textFile(bucket_URL + '/all_files/\*')

但这会抛出“路径不存在”错误：

org.apache.hadoop.mapred.InvalidInputException：输入路径不存在