在Dataflow中处理GCS文件的最佳方法?

时间:2015-04-03 05:44:56

标签: google-cloud-dataflow

我有一个匹配的GCS文件名的PCollection,每个文件名都包含一个压缩的JSON blob。读取整个文件,解压缩(Gzip格式)和JSON解码的最佳方法是什么?

  • TextIO非常接近,但每行读取数据。
  • GCS API为how to read the entire file提供了一个示例,但它不处理解压缩,并导致我重新实现了许多核心功能。

是否有任何现有的API和/或示例可以帮助我领先一步?这似乎是一个非常常见的用例。

1 个答案:

答案 0 :(得分:2)

Dataflow本身不支持此功能。要完成从文件中读取JSON blob,您可以实现FileBasedSource:

https://cloud.google.com/dataflow/java-sdk/JavaDoc/com/google/cloud/dataflow/sdk/io/FileBasedSource

如果这足以开始,我们可以继续使用更多信息更新此答案。