XmlInputFormat的拆分是否始终包含元素的开始和结束标记?

时间:2014-11-15 08:09:12

标签: xml hadoop

我想知道如何处理带有多个拆分的Xml文件。 谁负责将Xml元素的起始和结束标记放在同一个分割中? 它是XmlInputFormat或在HDFS上创建Xml文件的程序的责任吗?

最佳, 泡菜

1 个答案:

答案 0 :(得分:0)

XMLInputFormat要求您分别使用xmlinput.startxmlinput.end指定开始和结束标记。有一次,您已经为xml指定了开始和结束标记,那么XMLInputForamt的RecordReader将能够找出记录边界。

如需参考,请查看XMLInputFormat的代码。

因此,在HDFS中创建XML文件的程序不必执行任何操作。