我在S3存储桶中有JSON数据,每小时进行一次分区。例如,$ bucketname / year = 2020 / month = 07 / day = 07 / hour = 01,$ bucketname / year = 2020 / month = 07 / day = 07 / hour = 02,依此类推。我正在尝试创建一个GLUE作业,将上面的JSON转换为Parquet,再转换为另一个S3存储桶。
我想每小时(或每天也可以)转换数据,但是,当我在GLUE作业脚本中指定数据源时,它应该是我上面提到的整个数据本身。我的目的是仅将一个小时内堆积的数据转换为实木复合地板,但是GLUE似乎不提供这种功能。
我想到的解决方法是在最低级别上爬网S3(例如,在$ bucketname / year = 2020 / month = 07 / day = 07 / hour = 01级别,而不是在$ bucketname本身上)。但是,这种解决方法不允许我在创建的Parquet上设置基于小时的分区。
有什么建议可以实现我的目标吗?提前谢谢。