我有一个AWS S3的公共链接,它基本上提供了一个文本文件。如果我直接转到S3网址,它会自动将文本文件下载到我的电脑上。 我想使用ApacheSpark直接将文本文件作为数据框加载,而无需在数据库中暂存数据。我已经尝试过使用sparkContext以及addFile和getFile选项,但没有运气。
如何做到这一点?感谢。
答案 0 :(得分:0)
在databricks中,您可以将文件下载到群集中,只需执行以下操作即可...
%sh curl -O www.my-s3-bucket.com/file/name.txt
除了您的数据的网址:)
如果您真的希望获得数据,那么建议您将s3存储桶安装到数据库文件系统,但您也可以使用s3a
协议。有关详细信息,请参阅this page