文件未在第二个MR期间创建

时间:2013-12-19 05:20:59

标签: java hadoop mapreduce

我有一个算法的hadoop实现。

我在Eclipse中这样做: 当我在eclipse中运行时,我的算法工作正常并创建必要的文件和输出。

Algorithm
       |
       |___creates a file0.txt file.
       |
       |___creates a file1.txt file.
       |
       |___creates a file3.txt file.
       |
       |___creates a file4.txt file.
       |
       |___creates a file5.txt file.
       |
       |___creates a file6.txt file.
       |
       |___creates a file7.txt file.

完成工作。 当我在Hadoop集群中尝试我的程序时,除了file0.txt之外,所有其他文件都没有在hdfs中从reducer阶段创建。

是否有人经历过这个问题。

请帮助。 Source

Output from eclipse

Output from cluster

2 个答案:

答案 0 :(得分:0)

输出文件由驱动程序代码指定,与MR作业无关。请检查您的驱动程序代码或在此处分享

答案 1 :(得分:0)

您的问题有点令人困惑。据我所知,你有413个字节的长文件,你正在尝试运行7个MR作业。 那么,你是说你想在这个413字节的文件上运行7对 Mapper Reducer 类吗? 你再次提到my algorithm runs different MR jobs depending upon the data sets,所以我只能假设一个数据集只能被一对Mapper-Reducer类使用。您是否验证了数据集是否满足Mapper-Reducer对1,3,4,5,6,7,

的条件

所有这些Mapper-Reducer对都使用相同的输出文件夹......?这也可能是一个大问题。

请回答他们,然后我可以帮忙。