应用错误收集

Python ApacheSpark直接从AWS S3加载数据

时间：2018-03-26 16:23:30

标签： apache-spark

我有一个AWS S3的公共链接，它基本上提供了一个文本文件。如果我直接转到S3网址，它会自动将文本文件下载到我的电脑上。我想使用ApacheSpark直接将文本文件作为数据框加载，而无需在数据库中暂存数据。我已经尝试过使用sparkContext以及addFile和getFile选项，但没有运气。

如何做到这一点？感谢。

1 个答案:

答案 0 :(得分：0)

在databricks中，您可以将文件下载到群集中，只需执行以下操作即可...

%sh curl -O www.my-s3-bucket.com/file/name.txt

除了您的数据的网址:)

如果您真的希望获得数据，那么建议您将s3存储桶安装到数据库文件系统，但您也可以使用s3a协议。有关详细信息，请参阅this page