如何使用Google Cloud Dataflow将压缩文件写入Google云端存储?

时间:2015-07-13 03:58:03

标签: google-cloud-dataflow

我正在尝试将Gzip文件写入Google Data Flow程序中的Google Cloud Storage存储桶。常见问题解答说

Does the TextIO source and sink support compressed files, such as GZip?
Yes. Cloud Dataflow can read files compressed with gzip and bzip2.

这是否意味着他们不支持写GZip文件?

2 个答案:

答案 0 :(得分:4)

正确,我们目前没有内置支持编写gzip文件。 但是,user-defined data format API,特别是FileBasedSink,应该可以直接编写类似自己的接收器。

答案 1 :(得分:2)

在新的Beam库中,您现在可以更轻松地完成这项工作:

PDone d = c2.apply(TextIO.write()
  .to("gs://path")
  .withWritableByteChannelFactory(FileBasedSink.CompressionType.GZIP));