是否有可能刮掉一个动态的网页"与beautifulsoup?

时间:2016-11-22 02:35:04

标签: python html selenium beautifulsoup

我目前正在开始使用beautifulsoup来抓取网站,我认为即使我缺乏关于网页的理论知识,我也掌握了基础知识,我会尽力制定我的问题。

我对动态网页的意思如下:一个HTML基于用户操作而改变的网站,在我的例子中是可折叠表。

我想获取一些" div"中的数据。标签,但是当你加载页面时,html代码中的数据似乎是不可靠的,当你点击它扩展的表格时,"类"这个" div"改变了类似于" blabla collapsible" to" blabla collapsible active"而且我可以用我的知识勉强。

我可以使用beautifulsoup获取此数据吗?如果我不能,我想使用像selenium这样的东西来点击所有表格,然后下载我可以抓取的html,有更简单的方法吗?

非常感谢。

1 个答案:

答案 0 :(得分:0)

这取决于。如果在页面加载时已经加载了数据,那么数据可用于刮取,它只是在不同的元素中,或者被隐藏。如果click事件以某种方式触发数据加载,那么不需要,你需要Selenium或其他无头浏览器来自动执行此操作。

美丽的汤只是 一个HTML解析器,所以通过请求页面获得的任何数据都是美丽的汤可以访问的唯一数据。