如何从S3存储桶中读取最后修改的csv文件?

时间:2019-11-04 19:48:46

标签: csv amazon-s3 pyspark pyspark-sql aws-glue

我来找您是否有专业技巧,可以将由Glue作业生成的最新csv文件加载到S3存储桶中,以加载到jupyter笔记本电脑中。

我使用此命令从S3文件夹加载csv。是否可以选择仅选择最近修改过的csv文件的文件?

df = sqlContext.read.csv(
    's3://path', 
    header=True, sep=","
)

在我倾向于将动态数据框转换为经典数据框以覆盖我的Glue作业生成的旧文件之前。

这不可能通过生成DyF

谢谢

1 个答案:

答案 0 :(得分:1)

您可以使用S3 boto3 api获取具有最后修改日期的csv文件,然后对其进行排序,过滤并将其传递给Glue或Spark读取api。

或者,您可以使用AWS S3库存并通过雅典娜查询:https://docs.aws.amazon.com/AmazonS3/latest/dev/storage-inventory.html

Glue中有Job Bookmark概念,但它适用于新添加的文件而不是修改的文件。