我已经搜索了一种使用Java
在Hadoop中解析xml文件的方法我找到了this link
展示了如何使用XmlInputFormat类来解析XML
但正如有人在评论中提到: " HDFS以64mb的块分割文件,程序将丢失在块的结尾和下一个块的开始之间划分的记录。"
对于exmaple文件看起来像:
<Details>
<ID> 12346 </ID>
<age> 30 </age>
<FirstName> "bla bla me"</FirstName>
<LastName> "say my name"</LastName>
</Details>
那么我该怎么办才能处理xml的拆分, 并防止数据丢失?
或其他词 - 当1 xml可能被分成2个不同的节点时,它如何处理?