用美丽的汤提取维基百科

时间:2015-06-21 13:31:52

标签: python beautifulsoup wiki wikipedia information-retrieval

嘿所以我刚刚开始学习如何使用Beautiful Soup,我无法从维基百科页面中删除正确的html标签。

我试图从https://en.wikipedia.org/wiki/Category:Furniture

上的子类别部分中提取单个子类别 然而,我似乎无法弄清楚如何通过所有嵌入式链接来完成它。我设法通过以下方式简单地提取页面链接:

pg_links = soup.find("div" , { "id" : "mw-pages" })

然而,当我尝试类似的代码来获取子类别时

sub_cats = soup.find("div" , { "class" : "CategoryTreeSection" })

我只获得了我想要的一部分输出,当我尝试缩小范围时;

sub_cats = soup.find("li" , { "class" : "CategoryTreeSection" })

我什么都没得到。任何洞察这个问题将不胜感激

---这里是我试图从中获取的wiki页面的链接: https://en.wikipedia.org/wiki/Category:Furniture

0 个答案:

没有答案