python - 过滤从S3读取的文件

我具有以下格式的存储桶文件夹中的多个s3文件

s3://bucket/student_id=1/year=2019/month=06/day=09/file1.csv
s3://bucket/student_id=1/year=2019/month=06/day=07/file2.csv
s3://bucket/student_id=2/year=2019/month=06/day=10/file3.csv
s3://bucket/student_id=3/year=2019/month=06/day=11/file4.csv

在Python中使用boto3可以通过以下方式获取文件：

s3：// bucket / student_id = / year = {arg_year} / month = {arg_month} / day = {arg_day} / *

其中年，月和日通过参数传递。此外，还有一种方法可以识别正在处理的客户端数据或完成的客户端数据。喜欢正在处理student_id = 1 ........ 处理student_id = 2 现在，我唯一能做的就是从s3中获取所有价值，这需要花费大量时间。

s3 = boto3.resource("s3")
bucket = s3.Bucket("usergram")
for obj in bucket.objects.all():
    print(obj.key)

过滤从S3读取的文件

0 个答案: