Question

我有一个算法的hadoop实现。

我在Eclipse中这样做：当我在eclipse中运行时，我的算法工作正常并创建必要的文件和输出。

Algorithm
       |
       |___creates a file0.txt file.
       |
       |___creates a file1.txt file.
       |
       |___creates a file3.txt file.
       |
       |___creates a file4.txt file.
       |
       |___creates a file5.txt file.
       |
       |___creates a file6.txt file.
       |
       |___creates a file7.txt file.

完成工作。当我在Hadoop集群中尝试我的程序时，除了file0.txt之外，所有其他文件都没有在hdfs中从reducer阶段创建。

是否有人经历过这个问题。

请帮助。 Source

Output from eclipse

Output from cluster

Answer 1

输出文件由驱动程序代码指定，与MR作业无关。请检查您的驱动程序代码或在此处分享

Answer 2

您的问题有点令人困惑。据我所知，你有413个字节的长文件，你正在尝试运行7个MR作业。那么，你是说你想在这个413字节的文件上运行7对 Mapper 和 Reducer 类吗？你再次提到my algorithm runs different MR jobs depending upon the data sets，所以我只能假设一个数据集只能被一对Mapper-Reducer类使用。您是否验证了数据集是否满足Mapper-Reducer对1,3,4,5,6,7，

的条件

所有这些Mapper-Reducer对都使用相同的输出文件夹......？这也可能是一个大问题。

请回答他们，然后我可以帮忙。

文件未在第二个MR期间创建

2 个答案: