Question

我试图借助pyspark在s3存储桶中进行读写，这两个文件来自maven https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-aws/2.7.7和https://mvnrepository.com/artifact/com.amazonaws/aws-java-sdk/1.7.4，它们确实很老。我尝试了hadoop-aws和aws-java-SDK的不同组合，但不适用于pyspark 2.4.4版。有谁知道Hadoop和Java SDK的哪个版本与Spark版本2.4.4兼容？

Answer 1

我正在使用以下内容：

Spark: 2.4.4
Hadoop: 2.7.3
Haddop-AWS: hadoop-aws-2.7.3.jar
AWS-JAVA-SDK: aws-java-sdk-1.7.3.jar
Scala: 2.11

为我工作，并使用s3a://bucket-name/

（注意：因为我无法使用

，所以我在PySPark使用了aws-java-sdk-1.7.4.jar）。

df.write.csv(path=path, mode="overwrite", compression="None")