如何从英语维基百科的所有文章中删除网页浏览量统计信息?

时间:2016-03-01 17:20:40

标签: web-scraping wikipedia pageviews

以下是已制作的综合浏览量工具的链接:https://tools.wmflabs.org/pageviews/#start=2016-02-10&end=2016-02-29&project=en.wikipedia.org&platform=all-access&agent=user&pages=Cat|Dog

但您无法同时查看维基百科所有文章的综合浏览量。哪篇文章的观点最多,哪篇文章最低。

希望你能帮助我!

1 个答案:

答案 0 :(得分:0)

API endpoint for the daily top 1000 most-viewed pages,在午夜(UTC)后几小时更新。

例如:https://wikimedia.org/api/rest_v1/metrics/pageviews/top/en.wikipedia/all-access/2016/02/29

{
  "items": [
  {
    "project": "en.wikipedia",
    "access": "all-access",
    "year": "2016",
    "month": "02",
    "day": "29",
    "articles": [
      {
        "article": "Main_Page",
        "views": 21384819,
        "rank": 1
      },
      {
        "article": "Special:Search",
        "views": 2211296,
        "rank": 2
      },
      {
        "article": "Steve_Blake",
        "views": 2084367,
        "rank": 3
      },
      ...
  • 它包括流行的维基百科页面,这些页面不是"文章"本身,如主页面,搜索页面和其他一些页面。您可以通过检查英语维基百科上以Special:,Template:,User:,Talk:等开头的标题来过滤这些标题。
  • 由于蜘蛛或机器人,您可能会注意到一些页面浏览量较多的网页。希望这些是filtered out, eventually

目前还没有最少查看过的网页的API。您还可以获取所有维基百科的aggregate statspageviews for a particular article