我在XML文件中有大量的Stackoverflow数据转储。我需要将文件拆分成每个大约500 MB的小块XML文件。请提供一些建议
答案 0 :(得分:1)
根据您的需要,您可以使用Unix split
实用程序。但它不知道你的元素边界。
如果您需要以支持XML的方式执行此操作,请参阅此处的文章,通过XML流式处理另一种方法。巧合的是,它描述了分解30 GB的XML文件:
http://java.dzone.com/articles/splitting-large-xml-files-java
编辑:Michael Kay在下面的评论中注明(我猜他无法在问题结束时添加答案)XSLT 3.0增加了对流量的支持,这允许你可以处理大文件而不需要内存中的所有内容。虽然XSLT 3.0是在我编写规范草案时,但Saxon-EE产品(商业版)几乎支持所有规范草案。