通过数据流将pubsub数据写入gcs

时间:2018-09-07 07:02:26

标签: google-cloud-platform google-cloud-dataflow google-cloud-pubsub

我想通过数据流流作业使用pubsub中的数据,并将其存储到每小时目录中的GCS中。

什么是最好的方法?

我尝试使用WindowedFilenamePolicy,但是它添加了一个附加的group by并减慢了写入时的写入操作。数据流可以正确缓冲数据,但是花费太长时间才能将数据写入临时存储区。

在这种相当常见的情况下有最佳实践吗?

关于, 帕里

1 个答案:

答案 0 :(得分:1)

使用Google提供的流传输管道from Cloud Pub/Sub to Google Cloud Storage files的数据流模板,您可以通过将outputDirectory设置为gs://<BUCKET>/YYYY/MM/DD/HH/来轻松完成此操作,它将自动替换YYYY,MM,DD和HH作为值间隔窗口的大小。