“自定义源和汇(Python)”文档(https://cloud.google.com/dataflow/model/custom-io-python) 描述写作过程适用于多个工人。
当Pipeline I / O使用服务器本地存储时,自定义Sink的“finalize_write”如何处理工作存储?
我正在编写支持.gz写的自定义Sink。它需要使用本地硬盘进行文本输出。
最好的问候。
答案 0 :(得分:1)
finalize_write对于在处理数据包之后执行其他外部操作非常有用,例如在GCS上重命名文件。要使您的接收器工作,它需要通过Writer将数据导出Dataflow管道;如果需要,它可以暂时将数据缓冲到本地磁盘,但数据不能保留在捆绑结束之后。