当iobase.write的Writer子类将记录写入服务器本地并且Writer进程适用于多个worker时,如何序列化?

时间:2016-11-11 10:46:15

标签: python google-cloud-dataflow dataflow

“自定义源和汇(Python)”文档(https://cloud.google.com/dataflow/model/custom-io-python) 描述写作过程适用于多个工人。

当Pipeline I / O使用服务器本地存储时,自定义Sink的“finalize_write”如何处理工作存储?

我正在编写支持.gz写的自定义Sink。它需要使用本地硬盘进行文本输出。

最好的问候。

1 个答案:

答案 0 :(得分:1)

finalize_write对于在处理数据包之后执行其他外部操作非常有用,例如在GCS上重命名文件。要使您的接收器工作,它需要通过Writer将数据导出Dataflow管道;如果需要,它可以暂时将数据缓冲到本地磁盘,但数据不能保留在捆绑结束之后。