从Wikipedia XML转储中获取特定的“页面”

时间:2014-01-20 02:13:54

标签: php wikipedia

好的,这就是我需要的:

  • 我已经下载并提取了完整的Wikipedia XML转储(> 40GB,单个XML文件)
  • 我需要检索一个特定的<page>元素(例如“意大利”条目的页面)

我该怎么做? (最好使用PHP代码或一些现有工具)

1 个答案:

答案 0 :(得分:0)

无法保证页面的完整内容会按顺序排列,修订可能位于同一文件的任何位置,甚至可能位于不同的XML文件中。

请在最差web API's action=export使用或Special:Export。这里没有添加链接,因为输出很大。