Dataflow是否使用Google Cloud Storage的gzip转码?

时间:2017-02-13 16:15:49

标签: google-cloud-dataflow

我正在尝试处理JSON文件(10 GB未压缩/ 2 GB压缩),我想优化我的管道。

根据official docs Google云存储(GCS)可以选择转码gzip文件,这意味着应用程序在正确标记时会对其进行解压缩。 处理未压缩文件时,Google Cloud Dataflow(GCDF)具有更好的并行性,因此我想知道设置meta tag on GCS是否会对性能产生积极影响?

由于我的输入文件相对较大,解压缩它们是否有意义,以便Dataflow将它们拆分成较小的块?

1 个答案:

答案 0 :(得分:2)

您不应该使用此元标记。这很危险,因为GCS会错误地报告文件大小(例如报告压缩大小,但数据流/波束会读取未压缩数据)。

在任何情况下,未压缩文件的拆分都依赖于从文件的不同段并行读取,如果文件最初是压缩的,则无法进行此操作。