限制hadoop中的映射器和减速器

时间:2015-10-03 09:36:54

标签: hadoop mapper

我正在开发一个需要限制映射器和缩减器访问的安全项目。
在wordcount示例中说,我有5个文件。我将3个文件分组为1组,将2个剩余文件分组为2组。所有group1文件应该转到集群中的同一节点,所有组2文件应该转到同一个节点。我怎样才能做到这一点?

我开始查看源代码,但无法理解从哪里开始。有关如何执行此操作或从何处开始的任何建议都将非常有用。

1 个答案:

答案 0 :(得分:0)

您可以使用MultipleInputs

对于第1组,您可以执行类似的操作。

MultipleInputs.addInputPath(job,'file/path',FileInputFormatClass,Mapper1.class);
MultipleInputs.addInputPath(job,'file1/path',File1InputFormatClass,Mapper1.class);
MultipleInputs.addInputPath(job,'file2/path',File2InputFormatClass,Mapper1.class);

对于第2集

MultipleInputs.addInputPath(job,'file3/path',File3InputFormatClass,Mapper2.class);
MultipleInputs.addInputPath(job,'file4/path',File4InputFormatClass,Mapper2.class);