使用API​​获取Wikipedia页面标题看起来无穷无尽

时间:2017-05-06 13:00:29

标签: wikipedia wikipedia-api wikimedia wikimedia-dumps

我正在尝试使用以下API在Wikipedia中获取所有页面标题:

https://en.wikipedia.org/w/api.php?action=query&format=xml&list=allpages&apnamespace=0&apfilterredir=nonredirects&aplimit=max&continue=-||&apcontinue=BASE_PAGE_TITLE

我一直在请求此网址并检查响应是否包含continue标记。如果是,那么我使用相同的请求,但将BASE_PAGE_TITLE更改为响应中apcontinue属性中的值。
我的应用程序从3天开始运行,检索的数量超过30M,而转储中的应用程序大约为13M 任何想法?

1 个答案:

答案 0 :(得分:0)

您在查询中使用$而不是&。它应该是:

https://en.wikipedia.org/w/api.php?action=query&format=xml&list=allpages&apnamespace=0&apfilterredir=nonredirects&aplimit=max&continue=-||&apcontinue=BASE_PAGE_TITLE