从aws s3 pyspark读取文件数据

时间:2018-03-11 16:16:48

标签: python amazon-web-services amazon-s3 pyspark

我在s3中放置了一个json文件。 s3网址类似于下面的网址:

https://s3-eu-region-1.amazonaws.com/dir-resources/sample.json

但是在pyspark中传递相同内容时,它不会读取文件。

path = "https://s3-eu-region-1.amazonaws.com/dir-resources/sample.json"
df=spark.read.json(path)

但我可以通过浏览器下载。

1 个答案:

答案 0 :(得分:0)

假设dir-resources是您的存储桶的名称,您应该能够使用以下URI访问该文件:

path = "s3://dir-resources/sample.json"

在某些情况下,您可能不得不使用s3n协议:

path = "s3n://dir-resources/sample.json"