Question

我正在学习使用java的hadoop mapreduce，我有一个带有如下数据的示例文件，如何跳过处理此文件中的标题行...因为当我看到mapper输入时，它正在考虑标题也..

1 | XYZ | PQR | ABC | 10 | M | 1 |科学| 98

Answer 1

如果您使用单个映射器运行，则可以在if条件下使用计数器。如果您正在运行多个映射器，请在if条件中检查标头字符串。

Answer 2

因为你已经知道什么标题，你可以跳过标题。这种方法使应用程序更慢。

@Override
public void map(LongWritable key, Text value, OutputCollector<Text, Text> output, Reporter reporter) throws IOException{
      String[] row = value.toString();

      if( row.equals( "roll no|school name|name|age|Gender|class|subject|marks") )
            return;

      //NOW YOU ARE HEADER FREE 
      //do some operations depending on your needs..

}

如何跳过阅读hadoop mapreduce

2 个答案: