如何跳过阅读hadoop mapreduce

时间:2015-11-29 03:54:19

标签: hadoop

我正在学习使用java的hadoop mapreduce,我有一个带有如下数据的示例文件,如何跳过处理此文件中的标题行...因为当我看到mapper输入时,它正在考虑标题也..

roll no | school name | name | age | gender | class | subject | marks

1 | XYZ | PQR | ABC | 10 | M | 1 |科学| 98

2 个答案:

答案 0 :(得分:0)

如果您使用单个映射器运行,则可以在if条件下使用计数器。如果您正在运行多个映射器,请在if条件中检查标头字符串。

答案 1 :(得分:0)

因为你已经知道什么标题,你可以跳过标题。这种方法使应用程序更慢。

@Override
public void map(LongWritable key, Text value, OutputCollector<Text, Text> output, Reporter reporter) throws IOException{
      String[] row = value.toString();

      if( row.equals( "roll no|school name|name|age|Gender|class|subject|marks") )
            return;

      //NOW YOU ARE HEADER FREE 
      //do some operations depending on your needs..

}