我想使用mapreduce生成一些数据。我想用一个参数N调用这个作业,然后用1到N之间的每个整数调用Map一次。
显然我想要Mapper<IntWritable, NullWritable, <my output types>>
......这很容易。但我无法弄清楚如何生成输入数据!是否有InputFormat
我没有看到某个地方让我直接从集合中提取键+值?
答案 0 :(得分:2)
您是否希望每个映射器处理从1到N的所有整数?或者您是否希望在并发运行的映射器中分配整数1到N的处理?
如果是前者,我相信你需要创建一个自定义的InputFormat。如果是后者,最简单的方法可能是生成一个整数为1到N的文本文件,一行上的每个整数,并使用LineInputFormat。