如何使用Python从类别和子类别中获取所有维基百科文章?

时间:2016-05-26 02:35:29

标签: python api wikipedia wikimedia wikimedia-dumps

我正在努力获取一个类别及其子类别的所有维基百科文章。

我目前已经找到了使用wiki API的一小部分问题。例如,要查找Category:Geography,我已使用API​​查找地理类别:

https://en.wikipedia.org/w/api.php?action=query&format=json&list=categorymembers&cmtitle=Category:Geography&cmlimit=100

我收到了JSON回复:

{  
   "batchcomplete":"",
   "query":{  
      "categorymembers":[  
         {  
            "pageid":5883021,
            "ns":14,
            "title":"Category:Branches of geography"
         },
         {  
            "pageid":5782300,
            "ns":14,
            "title":"Category:Geography by place"
         },
         {  
            "pageid":8700702,
            "ns":14,
            "title":"Category:Geography awards and competitions"
         },
         ...
      ]
   }
}

现在我的问题是如何利用它来运行Python脚本并收集所有文章?我遇到了另一个问题,例如,如果我进入第一个cateogry:地理分支它包含更多的类别和子类别。如何创建一个脚本,它将一直横向直到它到达文章,将其保存到文本文件,然后向上移回类别并收集更多?

0 个答案:

没有答案