如何在s3上对增量数据运行aws粘合作业?

时间:2017-09-07 06:37:42

标签: amazon-web-services

第一天,我将数据保存为s3中的文件夹1并从胶水中运行作业,  我得到了预期的输出。 在第二天,我将数据作为文件夹2保存在相同的父文件夹中,并从胶水运行作业, folder1数据已被复制,文件夹2中的数据输出也来了。

如何避免从folder1复制数据?

1 个答案:

答案 0 :(得分:1)

您是否在AWS胶水作业中启用了书签?启用书签将导致Glue跟踪已加载的内容。如果您需要重新加载所有数据,则“作业”菜单上会出现“重置书签”选项。