hadoop中的任务分配

时间:2014-09-18 09:29:35

标签: java hadoop task

我的目标是使用hadoop进行令人尴尬的并行问题的任务分发,但计算成本高昂的任务。

每个任务通常是要在特定VM上执行的依赖字节代码序列。我们的想法是并行运行此字节代码,其中每个映射器将表现为独立的VM。 reduce阶段将用于通信和合并目的 - 始终通过VM - 。将使用分布式缓存在不同节点之间共享数据。

希望我现在很清楚。

问题出现了:

  1. 我的Map-Reduce问题的输入是一个字节码文件,最大1Mb,据我所知,Hadoop不太适合。

  2. 由我来分割我的(超小)文件以保证负载平衡。分裂不应该具有相同的大小,而是+/-相同的复杂度。

  3. 我的任务的复杂性来自它正在处理的数据量,可能是几个Gbs的数量级。

  4. 以下是问题

    1. 可以将hadoop(一般是Map-reduce)配置为在这种情况下运行良好吗?

    2. 是否可以将我们定义Splits的方式配置为更加以工作负载为中心而不是以大小为中心?

    3. 提前谢谢你们。

      亲切的问候

0 个答案:

没有答案