pyspark列出s3存储桶中文件夹的子文件夹

时间:2017-11-07 11:57:07

标签: dataframe amazon-s3 pyspark s3-bucket

我有一个s3存储桶,其中存储了由我的pyspark代码处理的数据文件。 我想访问的文件夹是:

s3a://bucket_name/data/

此文件夹包含文件夹。我的目的是访问此目录中最后添加的文件夹的内容。 我出于某些原因不想使用boto。 有没有办法访问文件夹列表,所以我可以选择我想访问的文件夹。 我可以访问文件,如果我指定文件夹,但我想让它动态。

1 个答案:

答案 0 :(得分:0)

我建议使用s3fs,它是boto3上的文件系统式包装器。文档在这里:http://s3fs.readthedocs.io/en/latest/

以下是您关注的部分(您可能需要传递或以其他方式配置您的AWS凭据):

import s3fs
fs = s3fs.S3FileSystem(anon=True)
fs.ls('my-bucket')