我有一个XML文件(stackoverflow post data),我需要能够为数据项目运行查询。我已经尝试将XML文件导入Access和Excel,但唯一的问题是,XML文件是30+千兆字节。当我将其导入Access时,没有任何反应,当我尝试Excel时,我的计算机(学校计算机)停止工作。有没有办法在这样大小的XML文件上打开和运行查询?
链接到XML文件(在7z文件中压缩到~6千兆字节) https://archive.org/download/stackexchange
https://archive.org/download/stackexchange/stackoverflow.com-Posts.7z
答案 0 :(得分:0)
你的数据集问题是它非常大。因此,您可以轻松地使用基于拉的XML解析来处理它。使用此类型,您可以轻松遍历所有XML元素,而不会占用所有内存。使用StAX API进行XML处理。
基于事件的StAX处理非常便于用于此任务。从这里开始吧。
http://www.360doc.com/content/12/1126/19/820209_250389830.shtml
http://www.ibm.com/developerworks/xml/library/x-stax1/index.html