Question

我正在寻找使用分区上载下载已保存到s3的文件。我尝试在地址末尾添加*，但此格式无效。我的代码如下：

df= spark.read.csv('s3a://bucket-name/file.csv/*')
                         , header='true'
                         , inferSchema ='true'
                        )

文件存储如下：

file.csv/part1.csv
file.csv/part2.csv

我想知道是否支持使用*。如果没有，还有什么替代方法？

Answer 1

您可以尝试放弃如下所示的目录位置，而不必指定'*'字符，

val df=spark.read
  .format("org.apache.spark.csv")
  .option("header", true)
  .option("inferSchema", true) 
  .csv("s3a://bucket-name/file.csv/")

使用S3A从S3对象存储中分区下载CSV

1 个答案: