当存储桶结构不重要时,将多个文件从S3读入pyspark

时间:2016-02-29 16:53:28

标签: amazon-web-services amazon-s3 apache-spark pyspark

我的AWS S3存储桶中的文本文件按如下方式组织:

my_bucket
    all_files
        folder1
            1a.txt
            1b.txt
            ...
        folder 2
           2a.txt
           ...

简而言之,存储桶包含一个主文件夹,其中包含多个子文件夹,每个子文件夹包含一堆文件。 我想知道是否有一种执行方式来使用pyspark在RDD中读取所有这些文本文件。

我尝试过通配符解决方案

 sc = SparkContext()
 sc.textFile(bucket_URL + '/all_files/\*')

但这会抛出“路径不存在”错误:

  

org.apache.hadoop.mapred.InvalidInputException:输入路径不存在

0 个答案:

没有答案