我正在开发一个需要限制映射器和缩减器访问的安全项目。
在wordcount示例中说,我有5个文件。我将3个文件分组为1组,将2个剩余文件分组为2组。所有group1文件应该转到集群中的同一节点,所有组2文件应该转到同一个节点。我怎样才能做到这一点?
我开始查看源代码,但无法理解从哪里开始。有关如何执行此操作或从何处开始的任何建议都将非常有用。
答案 0 :(得分:0)
您可以使用MultipleInputs。
对于第1组,您可以执行类似的操作。
MultipleInputs.addInputPath(job,'file/path',FileInputFormatClass,Mapper1.class);
MultipleInputs.addInputPath(job,'file1/path',File1InputFormatClass,Mapper1.class);
MultipleInputs.addInputPath(job,'file2/path',File2InputFormatClass,Mapper1.class);
对于第2集
MultipleInputs.addInputPath(job,'file3/path',File3InputFormatClass,Mapper2.class);
MultipleInputs.addInputPath(job,'file4/path',File4InputFormatClass,Mapper2.class);