我想用每个维基百科文章ID和它的类别ID(最常见的类别)创建一个mysql数据库。我看到维基百科提供了一个完整的转储,还有一些其他类似的链接。此外,我看到有mediawiki但我无法找到正确的查询发送。
但是我无法找到如何使用文章ID和类别ID转储大文件。 我该怎么办? 我应该期待多少数据?
答案 0 :(得分:3)
维基百科提供了大部分数据的转储。您想要的是categorylinks.sql
,其中包含每个文章ID的类别名称列表(类别没有ID)。您也很可能需要page.sql
,其中包含从文章ID到其标题的地图。
要使用转储,可以将它们导入到本地MySQL数据库中,也可以使用直接解析转储的库,如the one I wrote for .Net。
但是每篇文章通常都有几个类别,并没有主要类别或类似的概念。所以,如果你真的只想要每篇文章的一个类别,你必须自己弄清楚如何做到这一点。
答案 1 :(得分:-2)