将维基百科转储文件拆分为多个xml文件

时间:2011-06-06 11:22:26

标签: php xml wikipedia

我目前正在做一些利用维基百科文章的实验。 维基百科转储文件大约30GB。是否有可用的工具(最好是php)或一些可以将整个大文件拆分成块的脚本(每篇文章一个xml文件)?

2 个答案:

答案 0 :(得分:1)

这是一篇文章:Building a (fast) Wikipedia offline reader,它描述了类似的东西

它可能不像您喜欢的那样依赖PHP,但它讨论了将转储文件拆分为可管理的部分。

答案 1 :(得分:0)

我建议您使用优秀的XMLReader,它允许您逐个节点地读取xml文件,而不是先将整个文件加载到内存中。

之后您仍然可以使用DOM或SimpleXML浏览节点!