我可以自定义InputSplit以根据异常结束进行拆分

时间:2014-06-10 17:07:07

标签: hadoop mapreduce

我有一个大的日志文件,其中包含很多异常,我想编写一个自定义输入格式,将异常作为键,异常文本作为值,我也想创建自定义分割,以便每个映射器都可以获取所有例外。

我曾尝试创建自定义记录阅读器,但问题是我不知道如何创建自定义Get Splits方法。

1 个答案:

答案 0 :(得分:0)

  

我想编写一个自定义输入格式,将异常作为键,将异常文本作为值

足够简单 - 自定义记录阅读器。

  

我也想创建自定义拆分,以便每个映射器都获得所有异常

这不是MapReduce通常的工作方式。

  

但问题是我不知道如何创建自定义GetSplits方法

这是在InputFormat课程中完成的,并且有很多例子。