标签: hadoop
我有一个hadoop作业,它迭代运行一个文件。现在,如果我必须为目录中的每个文件并行运行多个作业,那么最好的做法就是在HADOOP中休闲。
答案 0 :(得分:0)
您可以参考项目haloop来解决迭代地图缩减问题。 然后,如果文件很大,那么继续使用haloop,否则你可以组合小文件以获得更好的性能。