AWS胶水增量负载

时间:2018-12-02 04:02:32

标签: amazon-web-services apache-spark aws-glue

我有一个S3存储桶,每天的文件都在其中转储。 AWS爬网程序从该位置爬网数据。在我的粘合作业运行的第一天,它将获取AWS爬网程序创建的表中存在的所有数据,例如,第一天就有三个文件(即file1。 txt,file2.txt,file3.txt)和粘合作业在粘合作业执行的第一天处理这些文件。第二天,另外两个文件到达S3位置。现在在S3位置这些文件存在。 .txt,file2.txt,file3.txt,file4.txt,file5.txt)。我可以以某种方式设计我的AWS爬虫,以便在工作执行的第二天仅读取两个文件(file4.txt,file5) .txt)?否则,我该如何写AWS粘合作业来识别这些增量文件?

1 个答案:

答案 0 :(得分:4)

您需要为胶水启用AWS作业书签,它将能够保留已处理数据的状态。您可以参考下面的链接以了解操作方法。

aws glue job bookmark