将30 GB的XML文件拆分为小块XML

时间:2014-10-24 06:54:00

标签: java xml

我在XML文件中有大量的Stackoverflow数据转储。我需要将文件拆分成每个大约500 MB的小块XML文件。请提供一些建议

1 个答案:

答案 0 :(得分:1)

根据您的需要,您可以使用Unix split实用程序。但它不知道你的元素边界。

如果您需要以支持XML的方式执行此操作,请参阅此处的文章,通过XML流式处理另一种方法。巧合的是,它描述了分解30 GB的XML文件:

http://java.dzone.com/articles/splitting-large-xml-files-java

编辑:Michael Kay在下面的评论中注明(我猜他无法在问题结束时添加答案)XSLT 3.0增加了对流量的支持,这允许你可以处理大文件而不需要内存中的所有内容。虽然XSLT 3.0是在我编写规范草案时,但Saxon-EE产品(商业版)几乎支持所有规范草案。