通过Spark中的分区将RDD保存到多个位置

时间:2016-03-13 19:18:52

标签: apache-spark rdd

如何将n分区的rdd保存到k <= n个位置?

例如,如果n=10k=2我希望5个分区(不关心哪些分区)进入s3://bucket/key1而其他5个分区进入s3://bucket/key2 }。

我假设我需要实现自己的OutputFormat,有没有办法在没有自定义OutputFormat的情况下执行此操作,如果我无法避免,OutputFormat我应该延伸吗?

1 个答案:

答案 0 :(得分:0)

你应该首先考虑你的文件输出格式(avro,二进制,文本,镶木地板等),然后你可能需要从标准实现继承并在你的overriden方法中“播放”路径来实现你的分裂目标分为2个位置。你想用这个解决什么问题?