应用错误收集

使用API获取Wikipedia页面标题看起来无穷无尽

时间：2017-05-06 13:00:29

标签： wikipedia wikipedia-api wikimedia wikimedia-dumps

我正在尝试使用以下API在Wikipedia中获取所有页面标题：

https://en.wikipedia.org/w/api.php?action=query&format=xml&list=allpages&apnamespace=0&apfilterredir=nonredirects&aplimit=max&continue=-||&apcontinue=BASE_PAGE_TITLE

我一直在请求此网址并检查响应是否包含continue标记。如果是，那么我使用相同的请求，但将BASE_PAGE_TITLE更改为响应中apcontinue属性中的值。
我的应用程序从3天开始运行，检索的数量超过30M，而转储中的应用程序大约为13M 任何想法？

1 个答案:

答案 0 :(得分：0)

您在查询中使用$而不是&。它应该是：

https://en.wikipedia.org/w/api.php?action=query&format=xml&list=allpages&apnamespace=0&apfilterredir=nonredirects&aplimit=max&continue=-||&apcontinue=BASE_PAGE_TITLE