使用S3A从S3对象存储中分区下载CSV

时间:2019-01-29 18:37:34

标签: apache-spark hadoop amazon-s3 ibm-cloud object-storage

我正在寻找使用分区上载下载已保存到s3的文件。我尝试在地址末尾添加*,但此格式无效。我的代码如下:

df= spark.read.csv('s3a://bucket-name/file.csv/*')
                         , header='true'
                         , inferSchema ='true'
                        )

文件存储如下:

file.csv/part1.csv
file.csv/part2.csv

我想知道是否支持使用*。如果没有,还有什么替代方法?

1 个答案:

答案 0 :(得分:0)

您可以尝试放弃如下所示的目录位置,而不必指定'*'字符,

val df=spark.read
  .format("org.apache.spark.csv")
  .option("header", true)
  .option("inferSchema", true) 
  .csv("s3a://bucket-name/file.csv/")