嘿所以我刚刚开始学习如何使用Beautiful Soup,我无法从维基百科页面中删除正确的html标签。
我试图从https://en.wikipedia.org/wiki/Category:Furniture
上的子类别部分中提取单个子类别 然而,我似乎无法弄清楚如何通过所有嵌入式链接来完成它。我设法通过以下方式简单地提取页面链接:pg_links = soup.find("div" , { "id" : "mw-pages" })
然而,当我尝试类似的代码来获取子类别时
sub_cats = soup.find("div" , { "class" : "CategoryTreeSection" })
我只获得了我想要的一部分输出,当我尝试缩小范围时;
sub_cats = soup.find("li" , { "class" : "CategoryTreeSection" })
我什么都没得到。任何洞察这个问题将不胜感激
---这里是我试图从中获取的wiki页面的链接: https://en.wikipedia.org/wiki/Category:Furniture