如何在HADOOP中并行运行多个迭代作业

时间:2012-09-21 10:25:17

标签: hadoop

我有一个hadoop作业,它迭代运行一个文件。现在,如果我必须为目录中的每个文件并行运行多个作业,那么最好的做法就是在HADOOP中休闲。

1 个答案:

答案 0 :(得分:0)

您可以参考项目haloop来解决迭代地图缩减问题。 然后,如果文件很大,那么继续使用haloop,否则你可以组合小文件以获得更好的性能。