Python ApacheSpark直接从AWS S3加载数据

时间:2018-03-26 16:23:30

标签: apache-spark

我有一个AWS S3的公共链接,它基本上提供了一个文本文件。如果我直接转到S3网址,它会自动将文本文件下载到我的电脑上。 我想使用ApacheSpark直接将文本文件作为数据框加载,而无需在数据库中暂存数据。我已经尝试过使用sparkContext以及addFile和getFile选项,但没有运气。

如何做到这一点?感谢。

1 个答案:

答案 0 :(得分:0)

在databricks中,您可以将文件下载到群集中,只需执行以下操作即可...

%sh curl -O www.my-s3-bucket.com/file/name.txt

除了您的数据的网址:)

如果您真的希望获得数据,那么建议您将s3存储桶安装到数据库文件系统,但您也可以使用s3a协议。有关详细信息,请参阅this page