我来找您是否有专业技巧,可以将由Glue作业生成的最新csv文件加载到S3存储桶中,以加载到jupyter笔记本电脑中。
我使用此命令从S3文件夹加载csv。是否可以选择仅选择最近修改过的csv文件的文件?
df = sqlContext.read.csv(
's3://path',
header=True, sep=","
)
在我倾向于将动态数据框转换为经典数据框以覆盖我的Glue作业生成的旧文件之前。
这不可能通过生成DyF
谢谢
答案 0 :(得分:1)
您可以使用S3 boto3 api获取具有最后修改日期的csv文件,然后对其进行排序,过滤并将其传递给Glue或Spark读取api。
或者,您可以使用AWS S3库存并通过雅典娜查询:https://docs.aws.amazon.com/AmazonS3/latest/dev/storage-inventory.html
Glue中有Job Bookmark概念,但它适用于新添加的文件而不是修改的文件。