获取Wikipedia页面查看统计信息

时间:2016-11-06 01:28:01

标签: wikipedia

我试图在过去五年中收集特定网页的维基百科页面查看统计信息("比特币")。我发现这个网站很有用:http://stats.grok.se用于获取此数据。两个问题:

  1. 网站触发了内部服务器错误"选择2016年作为获取数据的年份时出现错误。

  2. 是否有现有工具可以将此输出置于更有用的形式,例如.csv?

2 个答案:

答案 0 :(得分:2)

我不了解stats.grok.se,因为它似乎不会生活在维基媒体制作或实验室服务器上。但是从2015年7月开始为页面浏览统计提供了一个API:

https://wikimedia.org/api/rest_v1/#!/Pageviews_data/get_metrics_pageviews_per_article_project_access_agent_article_granularity_start_end

例如,过去一年中https://en.wikipedia.org/wiki/Bitcoin的每日网页浏览量:https://wikimedia.org/api/rest_v1/metrics/pageviews/per-article/en.wikipedia.org/all-access/all-agents/Bitcoin/daily/20151105/20161105

all-access = desktop + mobile-web + mobile-app

all-agents = user + spider + bot

可以从https://dumps.wikimedia.org/other/pagecounts-raw/

下载历史数据

答案 1 :(得分:1)

我在此处找到了2007年至2016年的网页浏览统计信息存档:https://dumps.wikimedia.org/other/pagecounts-raw/

在页面底部,他们列出了涵盖不同时间段的其他几个来源。