我的AWS S3存储桶中的文本文件按如下方式组织:
my_bucket
all_files
folder1
1a.txt
1b.txt
...
folder 2
2a.txt
...
简而言之,存储桶包含一个主文件夹,其中包含多个子文件夹,每个子文件夹包含一堆文件。 我想知道是否有一种执行方式来使用pyspark在RDD中读取所有这些文本文件。
我尝试过通配符解决方案
sc = SparkContext()
sc.textFile(bucket_URL + '/all_files/\*')
但这会抛出“路径不存在”错误:
org.apache.hadoop.mapred.InvalidInputException:输入路径不存在