应用错误收集

如何在pyspark中读取整个S3存储桶中的JSON文件？

时间：2020-03-08 13:31:14

标签： json amazon-s3 pyspark

我正在尝试读取特定S3存储桶中的所有json文件（而不仅仅是一个特定的json文件）。我用

df = spark.read.option("multiline", "true").json("s3://my path/")

但是df缺少存储桶中的某些文件。这是为什么？我也尝试过，仍然无法使用

df = spark.read.option("multiline", "true").json("s3://my path/*.json.gz")

非常感谢您！

0 个答案:

没有答案