Hadoop:如何将MultipleOutputs发送到2个不同的路径/文件系统?

时间:2012-10-25 10:06:29

标签: hadoop amazon-s3 hdfs

我已将MultipleOutputs配置为生成2个命名输出。我想将一个发送到s3n://,一个发送到hdfs://

这可能吗?

1 个答案:

答案 0 :(得分:0)

目前无法使用可用的API。

如果Hadoop MapReduce目前只适用于(已配置的输出目录的)子目录输出名称,那么MultipleOutputs类可以让它处理side-effects caused by speculative execution

但是,您可以重新实现该类(或从中派生),以支持它,因为它不是不可能实现的。如果您计划使实现支持推测执行,则可能还需要更复杂的OutputCommitter实现。