我具有以下格式的存储桶文件夹中的多个s3文件
s3://bucket/student_id=1/year=2019/month=06/day=09/file1.csv
s3://bucket/student_id=1/year=2019/month=06/day=07/file2.csv
s3://bucket/student_id=2/year=2019/month=06/day=10/file3.csv
s3://bucket/student_id=3/year=2019/month=06/day=11/file4.csv
在Python中使用boto3可以通过以下方式获取文件:
s3:// bucket / student_id = / year = {arg_year} / month = {arg_month} / day = {arg_day} / *
其中年,月和日通过参数传递。此外,还有一种方法可以识别正在处理的客户端数据或完成的客户端数据。喜欢 正在处理student_id = 1 ........ 处理student_id = 2 现在,我唯一能做的就是从s3中获取所有价值,这需要花费大量时间。
s3 = boto3.resource("s3")
bucket = s3.Bucket("usergram")
for obj in bucket.objects.all():
print(obj.key)