您好我有一个应用程序从HBase读取记录并写入文本文件HBase表有200个区域。 我在mapper类中使用MultipleOutputs来写入多个文件,我从传入的记录中创建文件名。
我正在制作40个独特的文件名。 我能够正确地获取记录,但我的问题是,当mapreduce完成时,它会创建40个文件以及2k额外的文件,并附加适当的名称但附加 用m-000等等。
这是因为我有200个区域,MultipleOutputs为每个映射器创建文件,所以200个映射器和每个映射器有40个唯一文件,这就是它创建40 * 200个文件的原因。
如果没有自定义分区程序,我不知道如何避免这种情况。
有没有办法强制将记录写入所属文件,而不是分成多个文件。
我使用了自定义分区器类并且它工作正常,但我不想使用它,因为我只是从HBase读取而不执行reducer操作。如果我必须创建任何额外的文件名,那么我必须更改我的代码也是。
这是我的映射器代码
public class DefaultMapper extends TableMapper<NullWritable, Text> {
private Text text = new Text();
MultipleOutputs<NullWritable, Text> multipleOutputs;
String strName = "";
@Override()
public void setup(Context context) throws java.io.IOException, java.lang.InterruptedException {
multipleOutputs = new MultipleOutputs<NullWritable, Text>(context);
}
String FILE_NAME = new String(value.getValue(Bytes.toBytes(HbaseBulkLoadMapperConstants.COLUMN_FAMILY),Bytes.toBytes(HbaseBulkLoadMapperConstants.FILE_NAME)));
multipleOutputs.write(NullWritable.get(), new Text(text.toString()),FILE_NAME);
//context.write(NullWritable.get(), text);
}
没有减速器类
这就是我的输出在理想情况下应该只创建一个Japan.BUS.gz
文件的方式。其他文件也是非常小的文件
Japan.BUS-m-00193.gz
Japan.BUS-m-00194.gz
Japan.BUS-m-00195.gz
Japan.BUS-m-00196.gz
答案 0 :(得分:1)
我遇到过同样的情况并为此做出了解决方案。
MultipleOutputs multipleOutputs = null;
String keyToFind = new String();
public void setup(Context context) throws IOException, InterruptedException
{
this.multipleOutputs_normal = new MultipleOutputs<KEYOUT, VALUEOUT>(context);
}
public void map(NullWritable key , Text values, Context context) throws IOException, InterruptedException
{
String valToFindInCol[] = values.toString.split(",");/** Lets say comma seperated **/
if (keyToFind .equals(valToFindInCol[2].toString())|| keyToFind == null) /** Say you need to match 2 position element **/
{
this.multipleOutputs.write(NullWritable.get(),<valToWrite>, valToFindInCol[2]);
}
else
{
this.multipleOutputs.close();
this.multipleOutputs = null;
this.multipleOutputs = new MultipleOutputs<KEYOUT, VALUEOUT>(context);
this.multipleOutputs.write(NullWritable.get(),<valToWrite>, valToFindInCol[2]);
}
keyToFind=valToFindInCol[2];
}