基于模板的数据流作业使用相同的临时目录

时间:2018-09-06 15:58:48

标签: google-cloud-dataflow

我们正在测试从一个模板运行多个Dataflow作业,并且经常同时运行多个作业。

我们发现,作业使用的是相同的临时目录,基于创建模板的时间戳,而不是基于作业的运行时间。

这是一个示例临时目录:

.temp-beam-2018-08-02_20-11-52-18/

我们看到在存储桶中使用这些相同的临时目录的多个作业。

这似乎是Beam中的相关代码行:https://github.com/apache/beam/blob/master/sdks/java/core/src/main/java/org/apache/beam/sdk/io/FileBasedSink.java#L532

请注意,临时ID是一个递增数字,临时目录中唯一的其他熵是时间戳,我们发现时间戳是基于模板创建时间,而不是作业运行时间。

在使用相同临时目录的多个作业中,它们是否会干扰彼此的数据?有办法解决吗?

0 个答案:

没有答案