应用错误收集

从复杂网站（隐藏内容）中搜集数据

时间：2018-06-18 15:16:07

标签： python python-3.x beautifulsoup

我刚刚开始网络抓取，不幸的是，我面临一个停滞：我想提取一些财务数据，但似乎网站相当复杂（动态内容等）。

Data I would like pull

网站： https://www.de.vanguard/web/cf/professionell/de/produktart/detailansicht/etf/9527/EQUITY/performance

到目前为止，我已经使用Beautiful Soup来完成这项工作。但是，我甚至找不到这张桌子。有什么想法吗？

1 个答案:

答案 0 :(得分：0)

使用on_click启动自动Web浏览器。这会加载网页及其相关的动态内容，并允许您选择“点击”＃39;在某些Web元素上加载可能生成的内容BeautifulSoup。通过将driver.page_source传递给BeautifulSoup并通过它解析，您可以将其与{{1}}结合使用。

这个SO答案提供了一个基本的例子，可以作为一个很好的起点：Python WebDriver how to print whole page source (html)