应对GCS Bucket Listing

时间:2016-12-20 21:45:21

标签: google-cloud-dataflow

我们的数据流作业从包含感兴趣文件的GCS多区域存储桶读取。这些文件也会被移动到存档桶中,因此有时我们会看到GCS列表操作返回已移动的文件(正如您所期望的那样,因为它是最终一致的操作)。

不幸的是,当FileBasedSource尝试阅读这些“幽灵”文件时,我们的工作就会爆炸。似乎谷歌的Dataflow SDK和Apache Beam都已经制定了最终打开GCS文件的方法(FileBasedSourcecreateReaderstartImpl),因此我们无法覆盖它们。

除了不移动文件外,有关此问题的任何建议吗?这个Stack Overflow question表明其他人遇到了类似的问题,但似乎回应是“按预期爆炸”。

1 个答案:

答案 0 :(得分:3)

目前,Google云端存储对象列表操作为strongly consistent,因此原始问题不再适用。

在使用最终一致的文件系统(如S3)时仍然适用。请参阅BEAM JIRA以跟踪此问题。