目标是使用一个reduce将输出写入不同的文件夹(不同的路径)。 我使用旧的mapreduce api,我对MultipleOutputs进行了一些修改(松散限制),它可以工作。 但我使用的outputformat扩展了FileOutputFormat,其中FileOutputCommitter由FileOutputFormat引用。 我发现只有一个文件夹中会有一个_success文件。这会有问题吗?
还有一个空文件part-00000,我不知道它为什么生成?
答案 0 :(得分:0)
_SUCCESS仅在作业完成后写入一次。检查作业是否完整很有用。我不认为这有任何风险。您应该知道它仅在作业完成后创建,如果您正在使用它,您应该知道在哪里查找该文件。
关于部分文件,请看一下 map reduce output files: part-r-* and part-*