我正在尝试将Gzip文件写入Google Data Flow程序中的Google Cloud Storage存储桶。常见问题解答说
Does the TextIO source and sink support compressed files, such as GZip?
Yes. Cloud Dataflow can read files compressed with gzip and bzip2.
这是否意味着他们不支持写GZip文件?
答案 0 :(得分:4)
正确,我们目前没有内置支持编写gzip文件。 但是,user-defined data format API,特别是FileBasedSink,应该可以直接编写类似自己的接收器。
答案 1 :(得分:2)
在新的Beam库中,您现在可以更轻松地完成这项工作:
PDone d = c2.apply(TextIO.write()
.to("gs://path")
.withWritableByteChannelFactory(FileBasedSink.CompressionType.GZIP));