从Wikipedia XML转储中获取静态HTML文件

时间:2012-05-23 04:12:28

标签: xml-parsing screen-scraping web-crawler mediawiki wikipedia

我希望能够从enwiki-latest-pages-articles.xml.bz2下载的大量(甚至是压缩后的)英文Wikipedia XML转储文件WikiMedia dump page中获取相对最新的静态HTML文件。似乎有相当多的工具可用,虽然它们的文档很少,所以我不知道它们中的大多数是什么,或者它们是否与最新的转储最新。 (我非常擅长构建可以抓取相对较小的HTML页面/文件的网页抓取工具,虽然我对SQL和XML很糟糕,而且至少在一年之内,我不希望它们非常好。)我希望能够脱机获取从转储中获取的HTML文件,而无需在线浏览维基百科。

有没有人知道从最近的Wikipedia XML转储中获取静态HTML文件的好工具?

1 个答案:

答案 0 :(得分:3)

首先,import the data。然后使用DumpHTML创建HTML文件。虽然理论上很简单,但由于涉及的数据量和DumpHTML有点被忽略,这个过程在实践中可能很复杂,所以不要犹豫ask for help