我正在尝试处理JSON文件(10 GB未压缩/ 2 GB压缩),我想优化我的管道。
根据official docs Google云存储(GCS)可以选择转码gzip文件,这意味着应用程序在正确标记时会对其进行解压缩。 处理未压缩文件时,Google Cloud Dataflow(GCDF)具有更好的并行性,因此我想知道设置meta tag on GCS是否会对性能产生积极影响?
由于我的输入文件相对较大,解压缩它们是否有意义,以便Dataflow将它们拆分成较小的块?
答案 0 :(得分:2)
您不应该使用此元标记。这很危险,因为GCS会错误地报告文件大小(例如报告压缩大小,但数据流/波束会读取未压缩数据)。
在任何情况下,未压缩文件的拆分都依赖于从文件的不同段并行读取,如果文件最初是压缩的,则无法进行此操作。