Question

我来找您是否有专业技巧，可以将由Glue作业生成的最新csv文件加载到S3存储桶中，以加载到jupyter笔记本电脑中。

我使用此命令从S3文件夹加载csv。是否可以选择仅选择最近修改过的csv文件的文件？

df = sqlContext.read.csv(
    's3://path', 
    header=True, sep=","
)

在我倾向于将动态数据框转换为经典数据框以覆盖我的Glue作业生成的旧文件之前。

这不可能通过生成DyF

谢谢

Answer 1

您可以使用S3 boto3 api获取具有最后修改日期的csv文件，然后对其进行排序，过滤并将其传递给Glue或Spark读取api。

Glue中有Job Bookmark概念，但它适用于新添加的文件而不是修改的文件。