我们正在测试从一个模板运行多个Dataflow作业,并且经常同时运行多个作业。
我们发现,作业使用的是相同的临时目录,基于创建模板的时间戳,而不是基于作业的运行时间。
这是一个示例临时目录:
.temp-beam-2018-08-02_20-11-52-18/
我们看到在存储桶中使用这些相同的临时目录的多个作业。
这似乎是Beam中的相关代码行:https://github.com/apache/beam/blob/master/sdks/java/core/src/main/java/org/apache/beam/sdk/io/FileBasedSink.java#L532。
请注意,临时ID是一个递增数字,临时目录中唯一的其他熵是时间戳,我们发现时间戳是基于模板创建时间,而不是作业运行时间。
在使用相同临时目录的多个作业中,它们是否会干扰彼此的数据?有办法解决吗?