我想知道如何处理带有多个拆分的Xml文件。 谁负责将Xml元素的起始和结束标记放在同一个分割中? 它是XmlInputFormat或在HDFS上创建Xml文件的程序的责任吗?
最佳, 泡菜
答案 0 :(得分:0)
XMLInputFormat要求您分别使用xmlinput.start
和xmlinput.end
指定开始和结束标记。有一次,您已经为xml指定了开始和结束标记,那么XMLInputForamt的RecordReader将能够找出记录边界。
如需参考,请查看XMLInputFormat的代码。
因此,在HDFS中创建XML文件的程序不必执行任何操作。