Java - 确定xml文档的大小

时间:2012-07-05 11:51:02

标签: java xml

我有一个简单的代码,可以从给定的URL获取xml文件:

DocumentBuilderFactory.newInstance().newDocumentBuilder().parse(link);

该代码返回xml文档(org.w3c.dom.Document)。我只需要获得生成的xml文档的大小。有没有优雅的方法可以做到这一点,没有涉及第三方罐子?

P.S。大小以KB为单位,或MB,而不是点头数

4 个答案:

答案 0 :(得分:2)

第一个天真版本:将文件加载到本地缓冲区。然后你知道你的输入有多长。然后将XML解析出缓冲区:

URL url = new URL("...");
InputStream in = new BufferedInputStream(url.openStream());
ByteArrayOutputStream buffer1 = new ByteArrayOutputStream();
int c = 0;
while((c = in.read()) >= 0) {
  buffer1.write(c);
}

System.out.println(String.format("Length in Bytes: %d", 
    buffer1.toByteArray().length));

ByteArrayInputStream buffer2 = new ByteArrayInputStream(buffer1.toByteArray());

Document doc = DocumentBuilderFactory.newInstance()
    .newDocumentBuilder().parse(buffer2);

缺点是RAM中的附加缓冲区。

第二个更优雅的版本:使用自定义java.io.FilterInputStream包裹输入流,计算通过它流式传输的字节数:

URL url = new URL("...");
CountInputStream in = new CountInputStream(url.openStream());
Document doc = DocumentBuilderFactory.newInstance().newDocumentBuilder().parse(in);
System.out.println(String.format("Bytes: %d", in.getCount()));

这是CountInputStream。覆盖所有read()方法以委托超类并计算结果字节:

public class CountInputStream extends FilterInputStream {

  private long count = 0L;

  public CountInputStream(InputStream in) {
    super(in);
  }

  public int read() throws IOException {
    final int c = super.read();
    if(c >= 0) {
      count++;
    }
    return c;
  }

  public int read(byte[] b, int off, int len) throws IOException {
    final int bytesRead = super.read(b, off, len);
    if(bytesRead > 0) {
      count += bytesRead;
    }
    return bytesRead;
  }

  public int read(byte[] b) throws IOException {
    final int bytesRead = super.read(b);
    if(bytesRead > 0) {
      count += bytesRead;
    }
    return bytesRead;
  }

  public long getCount() {
    return count;
  }
}

答案 1 :(得分:0)

也许这个:

document.getTextContent().getBytes().length;

答案 2 :(得分:0)

你可以这样做:

long start = Runtime.getRuntime().freeMemory();

构造XML Document对象。然后再次调用上述方法。

Document ocument = parser.getDocument();

long now = Runtime.getRuntime().freeMemory();

System.out.println(" size of Document "+(now - start) );

答案 3 :(得分:0)

一旦将XML文件解析为DOM树,源文档(作为字符串)就不再存在了。您只有一个从该文档构建的节点树 - 因此不再能够从DOM文档中准确地确定源文档的大小。

你可以transform the DOM document back into an XML file using the identity transform;但这是获得大小的一种非常圆润的方式,它仍然不会与源文档大小完全匹配。

对于您要做的事情,最好的方法是自己下载文档,记下大小,然后使用DocumentBuilder.parse将其传递给InputStream方法。