谷歌云数据流从压缩数据中读取数据

时间:2015-02-06 19:12:29

标签: google-cloud-dataflow

我尝试使用谷歌云数据流从GCS读取数据并加载到BigQuery表,但是GCS中的文件是压缩的(gzip),是否有任何类可用于从压缩/ gzip读取数据文件?

谢谢!

1 个答案:

答案 0 :(得分:6)

Dataflow现在支持从压缩文本源读取(截至this commit)。具体来说,可以通过指定压缩类型来读取使用gzip和bzip2压缩的文件:

TextIO.Read.from(myFileName).withCompressionType(TextIO.CompressionType.GZIP)

但是,如果文件具有.gz或.bz2扩展名,则您没有执行任何操作:默认压缩类型为AUTO,它会检查文件扩展名以确定文件的正确压缩类型。这甚至适用于globs,其中glob产生的文件可能是.gz,.bz2和未压缩的混合。