如何从Wiki获取10.000个静态html页面的数据集

时间:2013-07-01 20:35:25

标签: dataset wikipedia

我正在研究分类算法。为了做到这一点,我需要一个包含来自维基媒体的大约10,000个静态HTML页面的数据集。就像是 page-title-1.html .... page-title-10000.html

我试过谷歌,我发现我最好的解决方案是从http://dumps.wikimedia.org/other/static_html_dumps/2008-06/en/下载。

但是,我不知道如何使用它以获得我想要的东西。

以下是一些文件

html.lst    2008-Jun-19 17:25:05    692.2M  application/octet-stream
images.lst  2008-Jun-19 18:02:09    307.4M  application/octet-stream
skins.lst   2008-Jun-19 17:25:06    6.0K    application/octet-stream
wikipedia-en-html.tar.7z    2008-Jun-21 16:44:22    14.3G   application/x-7z-compressed

我想知道如何处理* .lst文件以及wikipedia-en-html.tar.7z

中的内容

1 个答案:

答案 0 :(得分:0)

您可能希望阅读the section "Static HTML tree dumps for mirroring or CD distribution" of Database download on Wikipedia(实际上是整个页面,它指向7zip以解压主档案。)