我想通过数据流流作业使用pubsub中的数据,并将其存储到每小时目录中的GCS中。
什么是最好的方法?
我尝试使用WindowedFilenamePolicy,但是它添加了一个附加的group by并减慢了写入时的写入操作。数据流可以正确缓冲数据,但是花费太长时间才能将数据写入临时存储区。
在这种相当常见的情况下有最佳实践吗?
关于, 帕里
答案 0 :(得分:1)
使用Google提供的流传输管道from Cloud Pub/Sub to Google Cloud Storage files的数据流模板,您可以通过将outputDirectory设置为gs://<BUCKET>/YYYY/MM/DD/HH/
来轻松完成此操作,它将自动替换YYYY,MM,DD和HH作为值间隔窗口的大小。