每个维基百科文章的受欢迎程度

时间:2015-06-23 16:15:57

标签: postgresql wikipedia wikipedia-api web-analytics

我想在我的数据库中存储所有en.wikipedia文章的列表。对于每篇文章,我想存储pageid,标题和流行度。我想过使用视图计数(过去一个月)作为衡量人气的衡量标准,但如果不可能,我可以想象去寻找别的东西(也许使用修订版的数量)。我知道http://dumps.wikimedia.org/enwiki/latest/并且我可以从那里获得完整的文章列表(当前计数36508337)。但是,我找不到一种聪明的方法来获取每篇文章的查看次数。

//更新,编辑,...... 建议的副本对我没有帮助,因为 a)我正在寻找人气测量。其他问题的答案只是表明不可能获得一个页面的观察者数量,这对我来说没问题。 b)那里没有答案给我每页的页面浏览量(或任何其他指标)。

1 个答案:

答案 0 :(得分:2)

好的,我终于完成了。这是我做的:

我发现http://dumps.wikimedia.org/other/pagecounts-ez/每月提供一次网页浏览量。这似乎很有希望,但是他们没有提到pageid所以我正在做的是从http://dumps.wikimedia.org/enwiki/latest/获取所有文章的列表,创建一个映射名称 - > pageid然后解析pagecount转储。这需要大约30分钟,这里有一些统计数据:

  1. 最新转储中不存在页数单文件中68%的文章。这可能是由于一些用户链接,例如,Misfits_(TV_series),而其他链接到Misfits_(tv_series)甚至像Misfits_%28TV_series%29 ...我没有打扰那些因为我的程序已经花了足够长的时间运行

  2. 前3页是:

    2.1。头版有6.39亿次观看(上个月)

    2.2。恶意软件,浏览量为850万次

    2.3。 Falcon 9 v1.1拥有470万次观看(很酷!)

  3. 我为具有特定视图数的页数做了直方图,这里是: Histogram number of pages with view count

  4. 当我忽略某些视图以下的所有文章时,我还绘制了我必须处理的页数。这是:LogLog Plot with pages having at least x views