如何使用Hadoop从csv文件中读取1000万条记录并为每条记录创建pdf

时间:2013-03-17 10:30:01

标签: hadoop mapreduce hdfs

下面的问题与MapReduce比Hadoop更加一致。 我需要知道如何在以下用例中使用hadoop。

用例:从tsv中读取1000万条记录(每条记录有20列) 提交并生成每条记录的pdf。

我有以下单位节目。

  • 程序描述:一个接受java对象的静态方法(代表一个             单个记录),并返回一个FilePath字符串(创建pdf)。

  • 程序名称:PdfUtil.createPdf(记录记录) - 返回FilePath字符串。

我应该在map方法中做什么,以及我应该在reduce方法中做些什么。 如果我在Mapper的map方法中调用PdfUtil.createPdf方法,我应该在Reduce的Reduce方法中做些什么。?

1 个答案:

答案 0 :(得分:0)

@Suresh:是的,您可以在不使用Reduce方法的情况下在Map Reduce中进行编码。

只需编写Map方法,使用它调用PdfUtil.createPdf。

有一点我很困惑,你是否需要每个记录一个PDF文件?