我有Glue作业,该作业每6秒在S3中写入一个实木复合地板文件,并且S3在那个小时内都具有文件夹。在小时结束时,我想合并该小时分区中的所有文件,然后将其放在相同的位置。我不想使用Athena表,因为工作变慢了。我正在尝试使用Python Shell。但是对于我来说,没有找到正确的解决方案。有人可以帮我吗?
文件也可以快速压缩
答案 0 :(得分:0)
取决于Parquet文件的大小以及目标大小是多少–在没有胶水的情况下,可以这样做:
请注意,此设计有一些限制/注意事项:
如果您特别需要Glue,则可以只从Lambda调用Glue作业,而不必自己在Lambda内部进行。