应用错误收集

java-如何使用Saxon库处理大型XML文件

时间：2012-12-10 14:18:22

标签： java xpath xquery saxon

在我正在处理的应用程序中，我必须处理非常大的XML文件（文件大小多达2GB）...我想使用Saxon java库对这些文件运行一些XQuery命令。

我该怎么做，以这种方式，一次只有文件中的一小组记录保存在内存中，文件在如此小的数据集中处理（而不是一次整个文件） - 同时，XQuery命令的输出应该是正确的？我更喜欢使用只有0.5GB RAM的机器来运行XQuery命令 - ＆gt;所以它不可能一次将整个XML加载到内存中。

2 个答案:

答案 0 :(得分：2)

Saxon对流处理的支持实际上在XSLT中比在XQuery中更强，主要是因为XSLT工作组在设计XSLT 3.0时一直在解决这个问题。您可以在

找到有关产品流功能的信息

http://www.saxonica.com/documentation9.4-demo/index.html#!sourcedocs/streaming

请注意，这些仅适用于商业版Saxon-EE。

对于简单的“突发模式”流式传输，您可以执行以下操作：

对于撒克逊人的$ e：stream（doc（'big.xml'）/ * / record [@ field ='234']）返回$ e / name

通过“突发模式”，我实质上是指对源文档的大量小的不相交子树进行操作的查询。

答案 1 :(得分：1)

达到此类功能的最佳方式（但复杂）是限制可能的XQuery命令（即枚举所有可能的用例）。之后，对于每个文件进程，它使用SAX或StAX方式为整个XML文件创建内部“索引”，将搜索键映射到XML文件中的偏移（开始和结束）。这些偏移量应指向XML文件的一些小但结构良好的部分，可以单独加载并进行分析以检查它是否与指定的XQuery匹配。

替代方法是将（再次使用SAX或StAX）XML文件解析为一些基于磁盘的临时数据库（如Apache Derby）并创建自己的XQuery =＆gt; SQL转换器或解释器来访问此文件数据。你不会得到OutOfMemoryException，但是这种方法的性能......可能不适合曾经使用过的文件。