45 mills

Question

我已经使用DOM很长一段时间了，因此DOM解析性能非常好。即使在处理大约4-7 MB的XML时，解析速度也很快。我们面对DOM的问题是内存占用空间，一旦我们开始处理大型XML就会变得非常庞大。

最近我尝试转移到Stax（用于XML的流解析器），它们被认为是第二代解析器（阅读Stax，它说它现在是最快的解析器）。当我尝试大型XML的Stax解析器大约4MB时，内存占用量明显减少，但是解析整个XML并创建java对象的时间比DOM增加了近5倍。

我使用了Stax的sjsxp.jar实现。

我可以在逻辑上推断，由于解析器的流特性而且性能可能不是很好，但是减少了5倍（例如，DOM为这个XML构建对象需要大约8秒，而Stax解析大约需要40个平均秒数绝对不可接受。

我完全错过了一些观点，因为我无法接受这些性能数字

Answer 1

package parsers;

/**
 *
 * @author Arthur Kushman
 */

import java.io.File;
import java.io.IOException;

import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;

import org.w3c.dom.Document;
import org.w3c.dom.Node;
import org.w3c.dom.NodeList;
import org.w3c.dom.Element;


public class DOMTest {

  public static void main(String[] args) {
  long time1 = System.currentTimeMillis();
   try {
    DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
    DocumentBuilder db = dbf.newDocumentBuilder();
    Document doc = db.parse(new File("/Users/macpro/Desktop/myxml.xml"));
    doc.getDocumentElement().normalize();
    // System.out.println("Root Element: "+doc.getDocumentElement().getNodeName());
    NodeList nodeList = doc.getElementsByTagName("input");
    // System.out.println("Information of all elements in input");

    for (int s=0;s<nodeList.getLength();s++) {
      Node firstNode = nodeList.item(s);
      if (firstNode.getNodeType() == Node.ELEMENT_NODE) {
        Element firstElement = (Element)firstNode;
        NodeList firstNameElementList = firstElement.getElementsByTagName("href");
        Element firstNameElement = (Element)firstNameElementList.item(0);
        NodeList firstName = firstNameElement.getChildNodes();
        System.out.println("First Name: "+((Node)firstName.item(s)).getNodeValue());        
      }
    }


   } catch (Exception ex) {
    System.out.println(ex.getMessage());
    System.exit(1);
   }
  long time2 = System.currentTimeMillis() - time1;
  System.out.println(time2);
  }

}

45 mills

package parsers;

/**
 *
 * @author Arthur Kushman
 */
import javax.xml.stream.*;
import java.io.*;
import javax.xml.namespace.QName;

public class StAXTest {

  public static void main(String[] args) throws Exception {
  long time1 = System.currentTimeMillis();
    XMLInputFactory factory = XMLInputFactory.newInstance();
    // factory.setXMLReporter(myXMLReporter);
    XMLStreamReader reader = factory.createXMLStreamReader(
            new FileInputStream(
            new File("/Users/macpro/Desktop/myxml.xml")));

    /*String encoding = reader.getEncoding();

    System.out.println("Encoding: "+encoding);

    while (reader.hasNext()) {
      int event = reader.next();
      if (event == XMLStreamConstants.START_ELEMENT) {
        QName element = reader.getName();
        // String text = reader.getText();
        System.out.println("Element: "+element);
        // while (event != XMLStreamConstants.END_ELEMENT) {
          System.out.println("Text: "+reader.getLocalName());
        // }
      }
    }*/

  try {
    int inElement = 0;
    for (int event = reader.next();event != XMLStreamConstants.END_DOCUMENT;
    event = reader.next()) {
      switch (event) {
        case XMLStreamConstants.START_ELEMENT:
          if (isElement(reader.getLocalName(), "href")) {
            inElement++;
          }
          break;
        case XMLStreamConstants.END_ELEMENT:
          if (isElement(reader.getLocalName(), "href")) {
            inElement--;
            if (inElement == 0) System.out.println();
          }
          break;
        case XMLStreamConstants.CHARACTERS:
          if (inElement>0) System.out.println(reader.getText());
          break;
        case XMLStreamConstants.CDATA:
          if (inElement>0)  System.out.println(reader.getText());
          break;
      }
    }
    reader.close();
  } catch (XMLStreamException ex) {
    System.out.println(ex.getMessage());
    System.exit(1);
  }
    // System.out.println(System.currentTimeMillis());
    long time2 = System.currentTimeMillis() - time1;
    System.out.println(time2);
 }

  public static boolean isElement(String name, String element) {
    if (name.equals(element)) return true;
    return false;
  }

}

23 mills

StAX wins =）

Answer 2

虽然问题缺少一些细节，但我很确定答案是，在任何一种情况下（DOM不是解析器; DOM树通常使用SAX或Stax解析器构建），它的解析速度都不慢，但是上面的代码是创造对象。

有高效的自动数据绑定器，包括JAXB（以及适当的设置，XStream），这可能会有所帮助。它们比DOM更快，因为DOM（以及JDOM，Dom4j和XOM）的主要性能问题是树模型与POJO相比本质上是昂贵的 - 它们基本上是美化的HashMaps，有很多指针可以方便地进行无类型遍历;特别是关于内存使用情况。

至于解析器，Woodstox是Sjsxp更快的Stax解析器;如果原始速度至关重要，阿尔托的速度会更快。但我怀疑主要问题是解析器的速度。

Answer 3

我的拙见speed/memory tradeoff的经典案例。除了尝试SAX（或JDOM）并再次测量之外，你可以做的不多。

Answer 4

尝试使用2000M创建XML，然后比较这些数字。我想基于DOM的方法在较小的数据上会更快。当数据变大时，Stax（或任何基于sax的方法）将成为选项。

（我们处理3G或大文件.. DOM甚至没有启动应用程序。）

Stax和DOM解析之间的性能差异

4 个答案:

45 mills

23 mills