解析复杂的XML文件以获取对象及其字段

时间:2016-02-27 23:04:09

标签: xml apache-spark jaxb hadoop2 dom4j

有没有办法解析复杂的XML文件,以便将子元素作为一个对象,并在一次读取中访问其字段/成员?

我正在处理一些使用Dom4J传递给我的代码,开发人员为每个节点读取了一个代码。因此对于具有字段和成员的对象,他会读取文件四到五次以获取每个文件。要重新构建对象,您是否必须进行所有这些调用?运行需要15秒。

也许使用Dom4J,您可以在一次读取文件时获得多个元素?

JaxB更像是这样,在一次读取中为您提供对象及其字段的引用吗?

Spark或Hadoop的性能更好/更快吗?

您看到我正在寻找读取XML文件并使用子元素等提取元素,以便在一次读取中构建对象。

让我知道哪种方法最有效!

1 个答案:

答案 0 :(得分:0)

由于DOM4J读取整个文件并在内存中构建对象图,因此不应该需要" read"该文件不止一次。

另一方面,如果您有正在处理的文档类型的架构,JAXB可能是更好的选择。