我的目标是使用hadoop进行令人尴尬的并行问题的任务分发,但计算成本高昂的任务。
每个任务通常是要在特定VM上执行的依赖字节代码序列。我们的想法是并行运行此字节代码,其中每个映射器将表现为独立的VM。 reduce阶段将用于通信和合并目的 - 始终通过VM - 。将使用分布式缓存在不同节点之间共享数据。
希望我现在很清楚。
问题出现了:
我的Map-Reduce问题的输入是一个字节码文件,最大1Mb,据我所知,Hadoop不太适合。
由我来分割我的(超小)文件以保证负载平衡。分裂不应该具有相同的大小,而是+/-相同的复杂度。
我的任务的复杂性来自它正在处理的数据量,可能是几个Gbs的数量级。
以下是问题
可以将hadoop(一般是Map-reduce)配置为在这种情况下运行良好吗?
是否可以将我们定义Splits的方式配置为更加以工作负载为中心而不是以大小为中心?
提前谢谢你们。
亲切的问候