我正在将Python脚本(实际上是pyspark)提交给Glue Job,以处理镶木地板文件并从该数据源中提取一些分析数据。
这些镶木地板文件位于S3文件夹中,并随着新数据的增加而不断增加。我对AWS Glue提供的书签逻辑感到满意,因为它很有帮助:基本上可以让我们仅处理新数据,而无需重新处理已处理的数据。
不幸的是,在这种情况下,我注意到每次生成重复项时,看起来AWS Glue书签根本不起作用。这种意外行为的原因是什么?
答案 0 :(得分:1)
来自https://docs.aws.amazon.com/glue/latest/dg/monitor-continuations.html
当前不支持Apache Parquet和ORC格式。
答案 1 :(得分:1)
可以请您立即检查。它支持Parquet和ORC。但是版本1.0和更高版本。版本0.9版,它不支持
https://docs.aws.amazon.com/glue/latest/dg/monitor-continuations.html