如何使用AWS Glue仅在特定分区上应用作业

时间:2020-07-07 12:52:59

标签: amazon-web-services aws-glue

我在S3存储桶中有JSON数据,每小时进行一次分区。例如,$ bucketname / year = 2020 / month = 07 / day = 07 / hour = 01,$ bucketname / year = 2020 / month = 07 / day = 07 / hour = 02,依此类推。我正在尝试创建一个GLUE作业,将上面的JSON转换为Parquet,再转换为另一个S3存储桶。

我想每小时(或每天也可以)转换数据,但是,当我在GLUE作业脚本中指定数据源时,它应该是我上面提到的整个数据本身。我的目的是仅将一个小时内堆积的数据转换为实木复合地板,但是GLUE似乎不提供这种功能。

我想到的解决方法是在最低级别上爬网S3(例如,在$ bucketname / year = 2020 / month = 07 / day = 07 / hour = 01级别,而不是在$ bucketname本身上)。但是,这种解决方法不允许我在创建的Parquet上设置基于小时的分区。

有什么建议可以实现我的目标吗?提前谢谢。

1 个答案:

答案 0 :(得分:1)

胶水具有一项称为作业书签的功能,该功能仅处理初次运行后到达的新数据。请参阅this,以了解有关如何利用此功能仅处理最新数据的更多信息。