如何从维基百科获取完整的页面标题列表?

时间:2013-02-17 00:18:37

标签: sparql dbpedia wikipedia-api

我希望这个列表能够在以后用于语言研究。

API:Allpages is limited to 500 queries。我需要它们(4百万)。

也许使用dbpedia攻击它。

要做的任何技巧吗?

1 个答案:

答案 0 :(得分:6)

运行维基百科的维基媒体基金会将所有项目的定期转储发布到http://dumps.wikimedia.org

您可以在此处浏览最新的enwiki转储(截至此帖子):http://dumps.wikimedia.org/enwiki/20130204/

您可能最感兴趣的文件是所有页面标题的列表:http://dumps.wikimedia.org/enwiki/20130204/enwiki-20130204-all-titles-in-ns0.gz