使用索引文件来解析大型XML文件

时间:2016-07-23 13:07:03

标签: php xml indexing xml-parsing large-files

我正在开发一个Wikipedia XML Dump文件(15GB),它提供了一个索引文本文件..看起来像这样:

1628813:431:Bille August
1628813:434:Blues
1628813:435:Bioéthique
1628813:436:Brive-la-Gaillarde
1628813:438:Burdigala
1628813:439:Bouliac

XML文件基本上采用以下格式:

<page>
<title> </title>
<id> </id>
<revision> 
    <id> </id>
    ...
    <text> </text>

</revision>
</page>

我想要的是获取与特定页面标题相对应的Text标签内容。 如何使用索引文件进行快速解析/搜索来实现此目的?

P.S:我已经尝试了许多快速解析的解决方案,没有任何方法可以满足我的需求。 我正在使用PHP,我尝试了SAX解析,这很快但不允许我按照我想要的方式处理节点,并尝试结合使用XMLReader和SimpleXML,但它太慢了..

0 个答案:

没有答案