从复杂网站(隐藏内容)中搜集数据

时间:2018-06-18 15:16:07

标签: python python-3.x beautifulsoup

我刚刚开始网络抓取,不幸的是,我面临一个停滞:我想提取一些财务数据,但似乎网站相当复杂(动态内容等)。

Data I would like pull

网站: https://www.de.vanguard/web/cf/professionell/de/produktart/detailansicht/etf/9527/EQUITY/performance

到目前为止,我已经使用Beautiful Soup来完成这项工作。但是,我甚至找不到这张桌子。有什么想法吗?

1 个答案:

答案 0 :(得分:0)

使用on_click启动自动Web浏览器。这会加载网页及其相关的动态内容,并允许您选择“点击”#39;在某些Web元素上加载可能生成的内容BeautifulSoup。通过将driver.page_source传递给BeautifulSoup并通过它解析,您可以将其与{{1}}结合使用。

这个SO答案提供了一个基本的例子,可以作为一个很好的起点:Python WebDriver how to print whole page source (html)