AWS Glue书签产生重复项

时间:2019-03-27 10:09:53

标签: amazon-web-services parquet aws-glue

我正在将Python脚本(实际上是pyspark)提交给Glue Job,以处理镶木地板文件并从该数据源中提取一些分析数据。

这些镶木地板文件位于S3文件夹中,并随着新数据的增加而不断增加。我对AWS Glue提供的书签逻辑感到满意,因为它很有帮助:基本上可以让我们仅处理新数据,而无需重新处理已处理的数据。

不幸的是,在这种情况下,我注意到每次生成重复项时,看起来AWS Glue书签根本不起作用。这种意外行为的原因是什么?

2 个答案:

答案 0 :(得分:1)

来自https://docs.aws.amazon.com/glue/latest/dg/monitor-continuations.html

  

当前不支持Apache Parquet和ORC格式。

答案 1 :(得分:1)

可以请您立即检查。它支持Parquet和ORC。但是版本1.0和更高版本。版本0.9版,它不支持

https://docs.aws.amazon.com/glue/latest/dg/monitor-continuations.html