无法使用Pyspark从minio S3读取实木复合地板文件

时间:2020-10-29 11:07:13

标签: pyspark parquet minio

我有一个非常简单的Pyspark作业,可以从Minio S3存储桶中读取实木复合地板文件。 Minio + Jupyter Notebook在docker-compose中运行

 spark = SparkSession.builder.getOrCreate()
 
spark.sparkContext._jsc\
     .hadoopConfiguration().set("fs.s3a.access.key", "***********")
spark.sparkContext._jsc\
     .hadoopConfiguration().set("fs.s3a.secret.key", "***********")
spark.sparkContext._jsc\
      .hadoopConfiguration().set("fs.s3a.endpoint", "http://127.0.0.1:9000")
spark.sparkContext._jsc\
      .hadoopConfiguration().set("spark.hadoop.fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")
spark.sparkContext._jsc\
      .hadoopConfiguration().set("spark.hadoop.fs.s3a.path.style.access", "true")
spark.sparkContext._jsc\
      .hadoopConfiguration().set("fs.s3a.multipart.size", "104857600")


measures = spark.read.parquet("s3a://measures/6200703043294113.parquet")

在运行时出现错误:

Py4JJavaError:调用o153.parquet时发生错误。 :java.lang.IllegalArgumentException

从另一面看-我可以从文件系统本地读取相同的实木复合地板文件。

我想念什么吗?

0 个答案:

没有答案