维基百科:转储文章ID和它的类别

时间:2013-05-13 18:14:58

标签: mysql dump wikipedia wikipedia-api

我想用每个维基百科文章ID和它的类别ID(最常见的类别)创建一个mysql数据库。我看到维基百科提供了一个完整的转储,还有一些其他类似的链接。此外,我看到有mediawiki但我无法找到正确的查询发送。

但是我无法找到如何使用文章ID和类别ID转储大文件。 我该怎么办? 我应该期待多少数据?

2 个答案:

答案 0 :(得分:3)

维基百科提供了大部分数据的转储。您想要的是categorylinks.sql,其中包含每个文章ID的类别名称列表(类别没有ID)。您也很可能需要page.sql,其中包含从文章ID到其标题的地图。

要使用转储,可以将它们导入到本地MySQL数据库中,也可以使用直接解析转储的库,如the one I wrote for .Net

但是每篇文章通常都有几个类别,并没有主要类别或类似的概念。所以,如果你真的只想要每篇文章的一个类别,你必须自己弄清楚如何做到这一点。

答案 1 :(得分:-2)