如果XML格式的输入文件,我不应该使用TextInputFormat,因为TextInputFormat假设每个记录都在输入文件的每一行中,并且为每一行调用Mapper类以获取该记录的键值对/线。
所以我认为我们需要一种自定义输入格式来扫描XML数据集。
对Hadoop mapreduce不熟悉,有没有文章/链接/视频显示构建自定义输入格式的步骤?
感谢 纳特
答案 0 :(得分:2)
<强> 问题 强> 在MapReduce中并行处理单个XML文件很棘手,因为XML在其数据格式中不包含同步标记。因此,我们如何使用不像XML那样本质上可拆分的文件格式?
所以我的意思是,自Mahout库出现以来,无需自定义输入格式。 我不确定,您是要阅读还是写,但两者都在上面的链接中描述过。
请看XmlInputFormat implementation details here.
此外,XmlInputFormat extends TextInputFormat