我正在开发一个Wikipedia XML Dump文件(15GB),它提供了一个索引文本文件..看起来像这样:
1628813:431:Bille August
1628813:434:Blues
1628813:435:Bioéthique
1628813:436:Brive-la-Gaillarde
1628813:438:Burdigala
1628813:439:Bouliac
XML文件基本上采用以下格式:
<page>
<title> </title>
<id> </id>
<revision>
<id> </id>
...
<text> </text>
</revision>
</page>
我想要的是获取与特定页面标题相对应的Text标签内容。 如何使用索引文件进行快速解析/搜索来实现此目的?
P.S:我已经尝试了许多快速解析的解决方案,没有任何方法可以满足我的需求。 我正在使用PHP,我尝试了SAX解析,这很快但不允许我按照我想要的方式处理节点,并尝试结合使用XMLReader和SimpleXML,但它太慢了..