我已经使用DOM很长一段时间了,因此DOM解析性能非常好。即使在处理大约4-7 MB的XML时,解析速度也很快。我们面对DOM的问题是内存占用空间,一旦我们开始处理大型XML就会变得非常庞大。
最近我尝试转移到Stax(用于XML的流解析器),它们被认为是第二代解析器(阅读Stax,它说它现在是最快的解析器)。当我尝试大型XML的Stax解析器大约4MB时,内存占用量明显减少,但是解析整个XML并创建java对象的时间比DOM增加了近5倍。
我使用了Stax的sjsxp.jar实现。
我可以在逻辑上推断,由于解析器的流特性而且性能可能不是很好,但是减少了5倍(例如,DOM为这个XML构建对象需要大约8秒,而Stax解析大约需要40个平均秒数绝对不可接受。
我完全错过了一些观点,因为我无法接受这些性能数字
答案 0 :(得分:6)
package parsers;
/**
*
* @author Arthur Kushman
*/
import java.io.File;
import java.io.IOException;
import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import org.w3c.dom.Document;
import org.w3c.dom.Node;
import org.w3c.dom.NodeList;
import org.w3c.dom.Element;
public class DOMTest {
public static void main(String[] args) {
long time1 = System.currentTimeMillis();
try {
DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
DocumentBuilder db = dbf.newDocumentBuilder();
Document doc = db.parse(new File("/Users/macpro/Desktop/myxml.xml"));
doc.getDocumentElement().normalize();
// System.out.println("Root Element: "+doc.getDocumentElement().getNodeName());
NodeList nodeList = doc.getElementsByTagName("input");
// System.out.println("Information of all elements in input");
for (int s=0;s<nodeList.getLength();s++) {
Node firstNode = nodeList.item(s);
if (firstNode.getNodeType() == Node.ELEMENT_NODE) {
Element firstElement = (Element)firstNode;
NodeList firstNameElementList = firstElement.getElementsByTagName("href");
Element firstNameElement = (Element)firstNameElementList.item(0);
NodeList firstName = firstNameElement.getChildNodes();
System.out.println("First Name: "+((Node)firstName.item(s)).getNodeValue());
}
}
} catch (Exception ex) {
System.out.println(ex.getMessage());
System.exit(1);
}
long time2 = System.currentTimeMillis() - time1;
System.out.println(time2);
}
}
package parsers;
/**
*
* @author Arthur Kushman
*/
import javax.xml.stream.*;
import java.io.*;
import javax.xml.namespace.QName;
public class StAXTest {
public static void main(String[] args) throws Exception {
long time1 = System.currentTimeMillis();
XMLInputFactory factory = XMLInputFactory.newInstance();
// factory.setXMLReporter(myXMLReporter);
XMLStreamReader reader = factory.createXMLStreamReader(
new FileInputStream(
new File("/Users/macpro/Desktop/myxml.xml")));
/*String encoding = reader.getEncoding();
System.out.println("Encoding: "+encoding);
while (reader.hasNext()) {
int event = reader.next();
if (event == XMLStreamConstants.START_ELEMENT) {
QName element = reader.getName();
// String text = reader.getText();
System.out.println("Element: "+element);
// while (event != XMLStreamConstants.END_ELEMENT) {
System.out.println("Text: "+reader.getLocalName());
// }
}
}*/
try {
int inElement = 0;
for (int event = reader.next();event != XMLStreamConstants.END_DOCUMENT;
event = reader.next()) {
switch (event) {
case XMLStreamConstants.START_ELEMENT:
if (isElement(reader.getLocalName(), "href")) {
inElement++;
}
break;
case XMLStreamConstants.END_ELEMENT:
if (isElement(reader.getLocalName(), "href")) {
inElement--;
if (inElement == 0) System.out.println();
}
break;
case XMLStreamConstants.CHARACTERS:
if (inElement>0) System.out.println(reader.getText());
break;
case XMLStreamConstants.CDATA:
if (inElement>0) System.out.println(reader.getText());
break;
}
}
reader.close();
} catch (XMLStreamException ex) {
System.out.println(ex.getMessage());
System.exit(1);
}
// System.out.println(System.currentTimeMillis());
long time2 = System.currentTimeMillis() - time1;
System.out.println(time2);
}
public static boolean isElement(String name, String element) {
if (name.equals(element)) return true;
return false;
}
}
StAX wins =)
答案 1 :(得分:1)
虽然问题缺少一些细节,但我很确定答案是,在任何一种情况下(DOM不是解析器; DOM树通常使用SAX或Stax解析器构建),它的解析速度都不慢,但是上面的代码是创造对象。
有高效的自动数据绑定器,包括JAXB(以及适当的设置,XStream),这可能会有所帮助。它们比DOM更快,因为DOM(以及JDOM,Dom4j和XOM)的主要性能问题是树模型与POJO相比本质上是昂贵的 - 它们基本上是美化的HashMaps,有很多指针可以方便地进行无类型遍历;特别是关于内存使用情况。
至于解析器,Woodstox是Sjsxp更快的Stax解析器;如果原始速度至关重要,阿尔托的速度会更快。但我怀疑主要问题是解析器的速度。
答案 2 :(得分:0)
我的拙见speed/memory tradeoff的经典案例。除了尝试SAX(或JDOM)并再次测量之外,你可以做的不多。
答案 3 :(得分:0)
尝试使用2000M创建XML,然后比较这些数字。我想基于DOM的方法在较小的数据上会更快。当数据变大时,Stax(或任何基于sax的方法)将成为选项。
(我们处理3G或大文件.. DOM甚至没有启动应用程序。)