输出的CSV文件正在使用Google Cloud Storage Sink插件拆分

时间:2019-05-01 13:33:39

标签: google-cloud-data-fusion

我一直使用管道中“接收器”类别下的Google Cloud Storage插件来获取CSV格式的输出。管道执行后,分割后的结果输出将进入几个文件中。这个插件的行为正确吗?如果是,那么是否有办法将合并的输出保存在单个文件中?

编辑:https://cloud.google.com/storage/docs/composite-objects中提到,这似乎是插件的正确行为。进行分片以支持并行上传。但现在我的问题是,是否有一种简单的方法来组合所有这些分割的文件?

1 个答案:

答案 0 :(得分:1)

在输出目录中找到多个文件是预期的行为,因为Cloud Data Fusion在下面使用Spark / MapReduce并行化了管道逻辑的执行。

将输出文件合并为一个文件时,您对订购有任何要求吗?