如何将n
分区的rdd保存到k <= n
个位置?
例如,如果n=10
和k=2
我希望5个分区(不关心哪些分区)进入s3://bucket/key1
而其他5个分区进入s3://bucket/key2
}。
我假设我需要实现自己的OutputFormat
,有没有办法在没有自定义OutputFormat
的情况下执行此操作,如果我无法避免,OutputFormat
我应该延伸吗?
答案 0 :(得分:0)
你应该首先考虑你的文件输出格式(avro,二进制,文本,镶木地板等),然后你可能需要从标准实现继承并在你的overriden方法中“播放”路径来实现你的分裂目标分为2个位置。你想用这个解决什么问题?