应用错误收集

将维基百科转储文件拆分为多个xml文件

时间：2011-06-06 11:22:26

标签： php xml wikipedia

我目前正在做一些利用维基百科文章的实验。维基百科转储文件大约30GB。是否有可用的工具（最好是php）或一些可以将整个大文件拆分成块的脚本（每篇文章一个xml文件）？

2 个答案:

答案 0 :(得分：1)

这是一篇文章：Building a (fast) Wikipedia offline reader，它描述了类似的东西

它可能不像您喜欢的那样依赖PHP，但它讨论了将转储文件拆分为可管理的部分。

答案 1 :(得分：0)

我建议您使用优秀的XMLReader，它允许您逐个节点地读取xml文件，而不是先将整个文件加载到内存中。

之后您仍然可以使用DOM或SimpleXML浏览节点！