如何在Google Dataflow管道中使用GroupBy写入GCS?

时间:2018-11-29 01:19:09

标签: google-cloud-platform google-cloud-dataflow

我们正在使用Google Dataflow(流管道用例)来处理需要转换为特定字符串格式的PubSub消息,然后将其写入每个组的文本文件(组ID是PubSub消息的一部分)到各自的文件夹中Google Cloud Storage上的那个组。

例如PubSub消息如下:

M1:{“ info”:“帐户:1,组:2,用户:35”,“ accessId”:123}

M2:{“ info”:“帐户:2,group:4,user:23”,“ accessId”:123}

我们正在使用自定义转换将消息转换为每条消息所需的字符串格式。发布我们能够在窗口持续时间后将字符串写到单个目录中。但是,我们如何按组ID进行分组,以将M1写入GCS上的目录1和M2到GCS上的目录2。

Google Dataflow版本:2.5+ 语言:Java

如果您需要更多信息,请告诉我。 谢谢

0 个答案:

没有答案