我目前正在做一些利用维基百科文章的实验。 维基百科转储文件大约30GB。是否有可用的工具(最好是php)或一些可以将整个大文件拆分成块的脚本(每篇文章一个xml文件)?
答案 0 :(得分:1)
这是一篇文章:Building a (fast) Wikipedia offline reader,它描述了类似的东西
它可能不像您喜欢的那样依赖PHP,但它讨论了将转储文件拆分为可管理的部分。
答案 1 :(得分:0)
我建议您使用优秀的XMLReader,它允许您逐个节点地读取xml文件,而不是先将整个文件加载到内存中。
之后您仍然可以使用DOM或SimpleXML浏览节点!