应用错误收集

从Wikipedia XML转储中获取静态HTML文件

时间：2012-05-23 04:12:28

标签： xml-parsing screen-scraping web-crawler mediawiki wikipedia

我希望能够从enwiki-latest-pages-articles.xml.bz2下载的大量（甚至是压缩后的）英文Wikipedia XML转储文件WikiMedia dump page中获取相对最新的静态HTML文件。似乎有相当多的工具可用，虽然它们的文档很少，所以我不知道它们中的大多数是什么，或者它们是否与最新的转储最新。（我非常擅长构建可以抓取相对较小的HTML页面/文件的网页抓取工具，虽然我对SQL和XML很糟糕，而且至少在一年之内，我不希望它们非常好。）我希望能够脱机获取从转储中获取的HTML文件，而无需在线浏览维基百科。

有没有人知道从最近的Wikipedia XML转储中获取静态HTML文件的好工具？

1 个答案:

答案 0 :(得分：3)

首先，import the data。然后使用DumpHTML创建HTML文件。虽然理论上很简单，但由于涉及的数据量和DumpHTML有点被忽略，这个过程在实践中可能很复杂，所以不要犹豫ask for help。