应用错误收集

从Wikipedia XML转储中获取特定的“页面”

时间：2014-01-20 02:13:54

标签： php wikipedia

好的，这就是我需要的：

我已经下载并提取了完整的Wikipedia XML转储（＆gt; 40GB，单个XML文件）
我需要检索一个特定的<page>元素（例如“意大利”条目的页面）

我该怎么做？（最好使用PHP代码或一些现有工具）

1 个答案:

答案 0 :(得分：0)

无法保证页面的完整内容会按顺序排列，修订可能位于同一文件的任何位置，甚至可能位于不同的XML文件中。

请在最差web API's action=export使用或Special:Export。这里没有添加链接，因为输出很大。