Question

我正在尝试编写一个程序，它接受一个庞大的数据集，然后使用mapreduce对它运行一些查询。我有这样的代码：

public static class MRMapper
   extends Mapper<LongWritable, Text, Text, IntWritable>{
String output2="hdfs://master:9000/user/xxxx/indexln.txt";
  FileSystem Phdfs =FileSystem.get(new Configuration());
 Path fname1=new Path(output2);
BufferedWriter out=new BufferedWriter(new OutputStreamWriter(Phdfs.create(fname1,true)));
private final static IntWritable one = new IntWritable(1);
private Text word = new Text();
    long max=0;

public void map(LongWritable key, Text value, Context context
                ) throws IOException, InterruptedException {
    String binln = Long.toBinaryString(0x8000000000000000L | key).substring(1);
    out2.write(binln+"\n");
    out2.flush();
    String line = value.toString();
    String [] ST = line.split(",");
                    long val=Math.abs(Long.parseLong(ST[2]));
                    if (max < val){
                                    max= val;
                    }
                    else{
                            word.set(line);
                            context.write(word, val);
                     }
 }
}

我要做的是在映射器中构建indexfile。这将用于由映射器访问输入文件的特定区域。映射器根据索引读取输入文件的一部分，然后将读取的部分和读取的行数打印到输出。我正在使用一台带有9个减速器的映射器。

我的问题是，是否可以创建/写入与map函数中的输出文件不同的文件，还是，reducer可以读取mapper中打开的文件吗？如果是的话，我是在正确的道路上还是完全错了，或者mapreduce可能不是这样的？如果这个问题听起来太棒了，我很抱歉，但我实际上是hadoop中的菜鸟。想学习。感谢

Answer 1

您确定自己使用的是单个映射器吗？因为Hadoop创建了一些非常接近输入分割数（more details）的映射器。

输入拆分的概念也非常重要：它意味着非常大的数据文件被分成几个块，每个块被分配给一个映射器。因此，除非您完全确定只使用了一个映射器，否则您将无法控制正在处理的文件的哪个部分，并且您将无法控制任何类型的全局索引。

据说，在MapReduce中使用单个映射器与完全不使用MapReduce相同:)也许错误是我的，我假设你只有一个文件需要分析，是情况？

如果您有几个大数据文件，则场景会发生变化，为每个文件创建一个映射器是有意义的，但您必须创建自己的InputSplit并覆盖{{1}总是isSplitable返回方法。

Hadoop从mapper写入新文件

1 个答案: