如何通过MediaWiki API获取所有Wikipedia内容页面的页面ID和标题?

时间:2020-07-29 08:21:04

标签: mediawiki wikipedia wikipedia-api wikidata mediawiki-api

Wikipedia Statistics

上面的链接显示,英语维基百科的内容页面有近600万。如何使用MediaWiki API获取所有内容页面的页面ID和标题?

params = {
    'action': 'query',
    'list': 'allpages',
    'gapfilterredir': 'nonredirects',
    'apnamespace': 0,
    'aplimit': 500,
    'format': 'json'
}

我尝试了这种API格式,尽管我将'gapfilterredir'设置为'nonredirects',但仍然有一些重定向页面,并且被抓取的项目远远超过600万。

1 个答案:

答案 0 :(得分:1)

最好通过dumps,但是,如果您真的想使用API​​,那么所显示的是正确的方法。统计信息排除了某些非常短的页面(如果我没有记错的话,这些页面没有内部链接或句点),这就是数字不同的原因。