如何使用Wikipedia API获取类别中所有页面的页面统计信息?

时间:2016-07-13 10:10:52

标签: mediawiki wikipedia wikipedia-api mediawiki-api

我希望找出维基百科类别中最受欢迎的页面(例如,graph algorithms去年的页面浏览量最高?)。但是,似乎很少有维基百科API的最新信息,特别是在获取统计数据方面。

例如,How to use Wikipedia API to get the page view statistics of a particular page in Wikipedia?上的StackOverflow帖子包含的答案似乎不再起作用。

我已经挖了一下,但我找不到任何可用的API,除了一个非常好的网站,我可以通过逐个输入页面标题手动执行此操作(最多只能打印十页) ):https://tools.wmflabs.org/pageviews/。非常感谢任何帮助。谢谢!

2 个答案:

答案 0 :(得分:1)

您可以像这样使用MediaWiki API调用来获取该类别中的标题:https://en.wikipedia.org/w/api.php?action=query&list=categorymembers&cmtitle=Category:Physics 然后,您可以使用它来获取每个页面的页面查看统计信息:https://wikimedia.org/api/rest_v1/#!/Pageviews_data/get_metrics_pageviews_per_article_project_access_agent_article_granularity_start_end (小心速度限制)

E.g。去年,文章“物理学”(物理学类别的一部分):https://wikimedia.org/api/rest_v1/metrics/pageviews/per-article/en.wikipedia.org/all-access/all-agents/Physics/daily/20151104/20161104

如果您正在处理大型类别,最好从https://dumps.wikimedia.org/other/pageviews/2016/2016-11/开始下载统计信息,以避免进行如此多的REST API调用。

答案 1 :(得分:0)

TreeViews是一个旨在完成此操作的工具。如果您的类别包含数千页,那么获取好的数据会很难,在这种情况下,您最好自己进行计算,就像Krenair所说的那样。