我有一个非常简单的Pyspark作业,可以从Minio S3存储桶中读取实木复合地板文件。 Minio + Jupyter Notebook在docker-compose中运行
spark = SparkSession.builder.getOrCreate()
spark.sparkContext._jsc\
.hadoopConfiguration().set("fs.s3a.access.key", "***********")
spark.sparkContext._jsc\
.hadoopConfiguration().set("fs.s3a.secret.key", "***********")
spark.sparkContext._jsc\
.hadoopConfiguration().set("fs.s3a.endpoint", "http://127.0.0.1:9000")
spark.sparkContext._jsc\
.hadoopConfiguration().set("spark.hadoop.fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")
spark.sparkContext._jsc\
.hadoopConfiguration().set("spark.hadoop.fs.s3a.path.style.access", "true")
spark.sparkContext._jsc\
.hadoopConfiguration().set("fs.s3a.multipart.size", "104857600")
measures = spark.read.parquet("s3a://measures/6200703043294113.parquet")
在运行时出现错误:
Py4JJavaError:调用o153.parquet时发生错误。 :java.lang.IllegalArgumentException
从另一面看-我可以从文件系统本地读取相同的实木复合地板文件。
我想念什么吗?