所以我使用python和beautifulsoup4(我没有绑定)来刮网站。问题是,当我使用urlib抓取页面的html时,它不是整个页面,因为其中一些是通过javascript生成的。有没有办法解决这个问题?
答案 0 :(得分:9)
基本上有两个主要选项可供选择:
第一个选项更难实现,一般来说,它更脆弱,但它不需要真正的浏览器,而且速度更快。
第二个选项在获得任何其他真实用户获得的内容方面更好,您不会担心页面的加载方式。 Selenium在页面上locating elements非常强大 - 您可能根本不需要BeautifulSoup
。但是,无论如何,这个选项比第一个慢。
希望有所帮助。