使用java Mahout XmlInputFormat(Hadoop)解析xml

时间:2015-10-06 11:07:28

标签: java hadoop xml-parsing mahout

我已经搜索了一种使用Java

在Hadoop中解析xml文件的方法

我找到了this link

展示了如何使用XmlInputFormat类来解析XML

但正如有人在评论中提到: " HDFS以64mb的块分割文件,程序将丢失在块的结尾和下一个块的开始之间划分的记录。"

对于exmaple文件看起来像:

<Details>
<ID> 12346 </ID>
<age> 30 </age>
<FirstName> "bla bla me"</FirstName>
<LastName> "say my name"</LastName>
</Details>

那么我该怎么办才能处理xml的拆分,  并防止数据丢失?

或其他词 - 当1 xml可能被分成2个不同的节点时,它如何处理?

0 个答案:

没有答案