Mapreduce XML输入格式 - 构建自定义格式

时间:2016-06-16 01:17:34

标签: hadoop xml-parsing mapreduce

如果XML格式的输入文件,我不应该使用TextInputFormat,因为TextInputFormat假设每个记录都在输入文件的每一行中,并且为每一行调用Mapper类以获取该记录的键值对/线。

所以我认为我们需要一种自定义输入格式来扫描XML数据集。

对Hadoop mapreduce不熟悉,有没有文章/链接/视频显示构建自定义输入格式的步骤?

感谢 纳特

1 个答案:

答案 0 :(得分:2)

<强> 问题 在MapReduce中并行处理单个XML文件很棘手,因为XML在其数据格式中不包含同步标记。因此,我们如何使用不像XML那样本质上可拆分的文件格式?

Solution MapReduce doesn’t contain built-in support for XML, so we have to turn to another Apache project, Mahout, a machine learning system, which provides an XML InputFormat.

所以我的意思是,自Mahout库出现以来,无需自定义输入格式。 我不确定,您是要阅读还是写,但两者都在上面的链接中描述过。

请看XmlInputFormat implementation details here.

此外,XmlInputFormat extends TextInputFormat