pyspark兼容的hadoop aws和ads adk版本2.4.4

时间:2019-09-23 14:40:37

标签: apache-spark hadoop amazon-s3 pyspark

我试图借助pyspark在s3存储桶中进行读写,这两个文件来自maven https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-aws/2.7.7https://mvnrepository.com/artifact/com.amazonaws/aws-java-sdk/1.7.4,它们确实很老。我尝试了hadoop-aws和aws-java-SDK的不同组合,但不适用于pyspark 2.4.4版。有谁知道Hadoop和Java SDK的哪个版本与Spark版本2.4.4兼容?

1 个答案:

答案 0 :(得分:0)

我正在使用以下内容:

Spark: 2.4.4
Hadoop: 2.7.3
Haddop-AWS: hadoop-aws-2.7.3.jar
AWS-JAVA-SDK: aws-java-sdk-1.7.3.jar
Scala: 2.11

为我工作,并使用s3a://bucket-name/

注意:因为我无法使用

,所以我在PySPark使用了aws-java-sdk-1.7.4.jar)。
df.write.csv(path=path, mode="overwrite", compression="None")