上面的链接显示,英语维基百科的内容页面有近600万。如何使用MediaWiki API获取所有内容页面的页面ID和标题?
params = {
'action': 'query',
'list': 'allpages',
'gapfilterredir': 'nonredirects',
'apnamespace': 0,
'aplimit': 500,
'format': 'json'
}
我尝试了这种API格式,尽管我将'gapfilterredir'设置为'nonredirects',但仍然有一些重定向页面,并且被抓取的项目远远超过600万。
答案 0 :(得分:1)
最好通过dumps,但是,如果您真的想使用API,那么所显示的是正确的方法。统计信息排除了某些非常短的页面(如果我没有记错的话,这些页面没有内部链接或句点),这就是数字不同的原因。