Google Cloud Dataflow需要暂存位置来存储我的数据流作业的临时文件。
到目前为止,我们一直在执行Job,这不需要太多的第三方工作。现在我们想要执行一个具有许多第三方依赖项的作业。因此,在运行作业时上传的文件会增加。
我们是否也为这个临时位置付费? 对于每个作业执行,Dataflow是否在暂存位置具有多个jar副本?
答案 0 :(得分:3)
是的,根据正常的GCS billing rates,您需要为GCS暂存位置中的文件付费。
Dataflow将在上传之前检查暂存位置中的文件副本。 Dataflow使用文件内容的散列来验证分段位置中的文件内容是否与上载的内容相匹配。如果找到匹配的文件,则Dataflow将使用该文件。因此,如果多个作业使用相同的分段位置和相同的jar,它们将重用GCS中的现有文件,而不是创建新版本。