我试图借助pyspark在s3存储桶中进行读写,这两个文件来自maven https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-aws/2.7.7和https://mvnrepository.com/artifact/com.amazonaws/aws-java-sdk/1.7.4,它们确实很老。我尝试了hadoop-aws和aws-java-SDK的不同组合,但不适用于pyspark 2.4.4版。有谁知道Hadoop和Java SDK的哪个版本与Spark版本2.4.4兼容?
答案 0 :(得分:0)
我正在使用以下内容:
Spark: 2.4.4
Hadoop: 2.7.3
Haddop-AWS: hadoop-aws-2.7.3.jar
AWS-JAVA-SDK: aws-java-sdk-1.7.3.jar
Scala: 2.11
为我工作,并使用s3a://bucket-name/
(注意:因为我无法使用
,所以我在PySPark使用了aws-java-sdk-1.7.4.jar
)。
df.write.csv(path=path, mode="overwrite", compression="None")