我有一个匹配的GCS文件名的PCollection,每个文件名都包含一个压缩的JSON blob。读取整个文件,解压缩(Gzip格式)和JSON解码的最佳方法是什么?
是否有任何现有的API和/或示例可以帮助我领先一步?这似乎是一个非常常见的用例。
答案 0 :(得分:2)
Dataflow本身不支持此功能。要完成从文件中读取JSON blob,您可以实现FileBasedSource:
https://cloud.google.com/dataflow/java-sdk/JavaDoc/com/google/cloud/dataflow/sdk/io/FileBasedSource
如果这足以开始,我们可以继续使用更多信息更新此答案。