我正在尝试使用以下API在Wikipedia中获取所有页面标题:
https://en.wikipedia.org/w/api.php?action=query&format=xml&list=allpages&apnamespace=0&apfilterredir=nonredirects&aplimit=max&continue=-||&apcontinue=BASE_PAGE_TITLE
我一直在请求此网址并检查响应是否包含continue标记。如果是,那么我使用相同的请求,但将BASE_PAGE_TITLE更改为响应中apcontinue属性中的值。
我的应用程序从3天开始运行,检索的数量超过30M,而转储中的应用程序大约为13M
任何想法?
答案 0 :(得分:0)
您在查询中使用$
而不是&
。它应该是:
https://en.wikipedia.org/w/api.php?action=query&format=xml&list=allpages&apnamespace=0&apfilterredir=nonredirects&aplimit=max&continue=-||&apcontinue=BASE_PAGE_TITLE