我在s3中放置了一个json文件。 s3网址类似于下面的网址:
https://s3-eu-region-1.amazonaws.com/dir-resources/sample.json
但是在pyspark中传递相同内容时,它不会读取文件。
path = "https://s3-eu-region-1.amazonaws.com/dir-resources/sample.json"
df=spark.read.json(path)
但我可以通过浏览器下载。
答案 0 :(得分:0)
假设dir-resources
是您的存储桶的名称,您应该能够使用以下URI访问该文件:
path = "s3://dir-resources/sample.json"
在某些情况下,您可能不得不使用s3n协议:
path = "s3n://dir-resources/sample.json"