如何在pyspark中读取整个S3存储桶中的JSON文件?

时间:2020-03-08 13:31:14

标签: json amazon-s3 pyspark

我正在尝试读取特定S3存储桶中的所有json文件(而不仅仅是一个特定的json文件)。 我用

df = spark.read.option("multiline", "true").json("s3://my path/")

但是df缺少存储桶中的某些文件。这是为什么?我也尝试过,仍然无法使用

df = spark.read.option("multiline", "true").json("s3://my path/*.json.gz")

非常感谢您!

0 个答案:

没有答案