在hadoop中没有reducer的MultipleOutput中限制mapper的数量

时间:2017-04-18 13:16:13

标签: java hadoop mapreduce hadoop2

您好我有一个应用程序从HBase读取记录并写入文本文件HBase表有200个区域。 我在mapper类中使用MultipleOutputs来写入多个文件,我从传入的记录中创建文件名。

我正在制作40个独特的文件名。 我能够正确地获取记录,但我的问题是,当mapreduce完成时,它会创建40个文件以及2k额外的文件,并附加适当的名称但附加 用m-000等等。

这是因为我有200个区域,MultipleOutputs为每个映射器创建文件,所以200个映射器和每个映射器有40个唯一文件,这就是它创建40 * 200个文件的原因。

如果没有自定义分区程序,我不知道如何避免这种情况。

有没有办法强制将记录写入所属文件,而不是分成多个文件。

我使用了自定义分区器类并且它工作正常,但我不想使用它,因为我只是从HBase读取而不执行reducer操作。如果我必须创建任何额外的文件名,那么我必须更改我的代码也是。

这是我的映射器代码

   public class DefaultMapper extends TableMapper<NullWritable, Text> {
        private Text text = new Text();
        MultipleOutputs<NullWritable, Text> multipleOutputs;
        String strName = "";

        @Override()
        public void setup(Context context) throws java.io.IOException, java.lang.InterruptedException {
            multipleOutputs = new MultipleOutputs<NullWritable, Text>(context);
        }
String FILE_NAME = new String(value.getValue(Bytes.toBytes(HbaseBulkLoadMapperConstants.COLUMN_FAMILY),Bytes.toBytes(HbaseBulkLoadMapperConstants.FILE_NAME)));

        multipleOutputs.write(NullWritable.get(), new Text(text.toString()),FILE_NAME);
        //context.write(NullWritable.get(), text);
    }

没有减速器类

这就是我的输出在理想情况下应该只创建一个Japan.BUS.gz文件的方式。其他文件也是非常小的文件

Japan.BUS-m-00193.gz
Japan.BUS-m-00194.gz
Japan.BUS-m-00195.gz
Japan.BUS-m-00196.gz

1 个答案:

答案 0 :(得分:1)

我遇到过同样的情况并为此做出了解决方案。

MultipleOutputs multipleOutputs = null;

String keyToFind = new String();

    public void setup(Context context) throws IOException, InterruptedException
    {
        this.multipleOutputs_normal = new MultipleOutputs<KEYOUT, VALUEOUT>(context);
    }

public void map(NullWritable key , Text values, Context context) throws IOException, InterruptedException
{

   String valToFindInCol[] = values.toString.split(",");/** Lets say comma seperated **/

    if (keyToFind .equals(valToFindInCol[2].toString())|| keyToFind == null) /** Say you need to match 2 position element **/
    {
        this.multipleOutputs.write(NullWritable.get(),<valToWrite>, valToFindInCol[2]);
    } 
    else 
    {
        this.multipleOutputs.close();
        this.multipleOutputs = null;
        this.multipleOutputs = new MultipleOutputs<KEYOUT, VALUEOUT>(context);

        this.multipleOutputs.write(NullWritable.get(),<valToWrite>, valToFindInCol[2]);

    }

    keyToFind=valToFindInCol[2];
}