mediawiki-api - 迭代继续获得所有结果

时间:2014-06-07 00:08:53

标签: mediawiki wikipedia wikipedia-api mediawiki-api

我正在尝试创建一个类别中所有子类别的列表,并为所有这些子类别创建它们的基本类别信息。 (文件数,子类别等)

我非常接近 - 只是忙着处理继续流程。

这让我得到了前100个结果:

http://en.wikipedia.org/w/api.php?action=query&format=xml&generator=categorymembers&gcmtitle=Category:Google%20Art%20Project%20works%20by%20artist&gcmlimit=100&gcmprop=ids|title&prop=categoryinfo&continue=

但是,有数千个子类别。

结果包括xml节点继续gcmcontinue和continue属性。

如果我在第二次请求中使用它,这会给我接下来的100个结果:

http://en.wikipedia.org/w/api.php?action=query&format=xml&generator=categorymembers&gcmtitle=Category:Google%20Art%20Project%20works%20by%20artist&gcmlimit=100&gcmprop=ids|title&prop=categoryinfo&continue=gcmcontinue||&gcmcontinue=subcat|4c41555245c380204241525241550a474f4f474c45204152542050524f4a45435420574f524b53204259204c41555245c38020424152524155|38370707

但是,这就是我遇到问题的地方。这些(第二组)结果不再具有continue xml节点,因此我不确定如何访问第三页等等。

(作为旁注,我知道如果我想 - 我必须处理子子类别 - 但我不需要那些,只是第一级是好的。)

1 个答案:

答案 0 :(得分:0)

詹姆斯自己的答案:所以,如果你想要公地的结果,确保你点击“commons.wikimedia.org”而不是“en.wikipedia.org”是有帮助的!那就是问题。